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网 上 读书 园地 酷 马 车 技术 帖 汇 集 


主要 技术 帖子 来 源 于 “ 酷 马 车 ” 即 coolman、 马 健 、cheming 在 
论坛 发 的 非 加 密 帖 〈 谁 说 有 技术 含量 的 帖子 都 加 密 了 ? ? )， 主 要 为 
号 健 大 人 的 技 木 帖 , 还 有 部 分 是 我 以 前 保存 下 来 的 , 来 源 于 其 他 朋友 
的 帖子 ， 很 抱歉 不 记得 id 了 ， 也 懒得 去 查 ， 感 谢 技术 牛人 们 的 无 私 











本 技术 汇集 帖 适 合 新 手 ， 以 及 比较 或 忙 , 偶尔 才 来 一 次 论坛 的 朋 
友 ， 老 手 也 可 以 下 一 个 放 家 里 备用 ,呵呵 。 整 理 时 只 考虑 了 内 容 ， 没 
有 精力 也 没有 能 力 搞 美 工 , 相信 多 数 需 要 的 朋友 也 不 会 在 意 美 工 的 : ) 





scdymy 整理 2008 年 1 月 3 日 





版 权 归 原作 者 所 有 ， 作 者 写 得 很 邯 音 ， 我 也 整理 得 很 茸 百 ， 如 果 
有 笠 被 转载 ， 请 注 明 来 自 “ 网 上 读书 园地 ” 
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coolman 早 期 写 的 置顶 帖 


作者 : coolman 


二 、 技 术 问 题 【资源 相关 了 

1. 什么 是 超星 文件 格式 ? 如 何 判别 ? 

超 星 文件 一 般 以 pdg 为 扩展 名 , 分 文本 和 图 像 2 衝 。 一 般 所 指 的 格式 走 針 対 
图 像 类 的 。 _ 

可 以 用 任何 16 进 制 文件 编辑 器 打开 ， 如 ultraedit, 第 16 个 字 节 处 的 数字 就 
是 该 文件 的 类 型。 例如 02H 表明 该 处 数字 为 02. Jpeg 格式 除外 。 

2. 超星 文件 格式 有 哪些 ? 

現有 格式 00 一 05h, 10-1CH, 64-68h, aah,abh,ach, FFh( 其 中 FFh 格式 为 已 经 破 
坏 的 格式 ， 无 法 阅读 ) 以 及 Jpeg 格式 

看 下 图 

[attachment_01=30268] 

3. 超星 文件 会 过 期 吗 ? 如 何 避 免 ? 

10h, 64-68h 的 文件 均 为 加 密 格 式 ， 有 阅读 限制 。 避 免 的 办 法 : 1. 避免 得 到 
这 样 的 文件 。2. 买 卡 并 在 过 期 前 备份 注册 信息 ， 阅 读 时 导入 注册 信息 ， 并 断 开 
网 络 连接 。3. 过 期 后 续 卡 。4. 注册 mini pdg reader， 并 申请 reader key. 

4. a 转换 为 其 它 图 像 格 式 吗 ? 

可以 。1. 虚拟 打印 是 最 简单 的 办 法 2.pdg2bmp 程序 3. Pdg2Pic 程序 

5. pe De 

可 以 ， 但 是 不 同 版 本 的 限制 不 同 。 寻找 破解 或 者 参考 回答 4。 

6. 为 什么 有 些 05h 的 文件 SSREADER 不 能 阅读 ? 

排除 文件 下 载 不 完整 的 因素 后 ,最 可 能 的 原因 是 该 文件 为 DJVU 格式 的 ,如 
下 图 ， 只 需要 将 05 改 为 00 即 可 。 上 

[attachment_01=30273] 

7.ssreader 3.9 下 载 的 本 地 文件 会 被 破坏 吗 ? 如何 避 免 ? 

用 ssreader 3.9 阅读 本 地 文件 时 会 判断 该 文件 是 否 过 期 ， 如 果 过 期 ， 该 文件 
所 在 目录 的 所 有 本 地 文件 都 会 被 破坏 , 这 样 的 文件 都 有 一 个 日 期 标志 , 可 以 清除 
此 标志 ， 避 免 被 破坏 。 看 下 图 

[attachment_01=30278] 

8.be 下 载 的 某 些 04h,05h 的 pdg 文件 不 能 阅读 ， 怎 么 办 ? 

这 样 的 文件 一 般 偏 移 为 66h 的 字 节 为 01， 修 改 为 00 即 可 。 

(最 新 版 mini pdg reader 已 经 可 以 直接 阅读 ) 

参看 

http://www.readfree.net/bbs/read.php7thd=152046 

9. 直接 能 在 SSREADER 中 无 需 注 册 就 能 阅读 的 图 书 格式 都 有 哪些 ? 

最新 的 SSREADER 版 本 可 以 直接 阅读 的 格式 为 00.02.03.04.05 和 JPEG 格式 

10. 如 何在 SSREADER 中 阅读 lxh 和 axh 格式 书 ? 

某 些 (不 是 全 部 ) 1xh 和 axh 格式 的 书 可 以 通过 建立 本 地 虚拟 http web 服务 































































































器 来 阅读 。 最 简单 的 虚拟 http web 服务 器 是 时 空 web 软件 。 或 者 用 认证 区 的 
pdgserver 阅读 ，pdgserver 应 该 支持 目前 所 有 的 1xh 和 axh 格式 。 

11. pdg 如 何 转 换 为 pdf? 

有 4 种 办 法 : 

a. 直接 虚拟 打印 ， 可 以 用 各 种 pdf 的 虚拟 打印 程序 ， 但 是 要 把 打印 机 改名 。 
此 法 方便 快速 ， 但 是 会 降低 原始 图 片 的 分 辨 率 。 解 决 办 法 是 寻求 破解 。 

b. 利用 pdg2bmp&jpg&tif&pdf&txt 直接 转换 ， 此 法 不 会 降低 分 辨 率 ， 但 是 
速度 慢 ， 而 且 不 是 所 有 格式 都 文 持 。 

c. 利用 boox viewer 或 者 pdg2bmp&jpg&tif&pdfwtxt 先 转换 为 bmp， 然后 
将 bmp 转换 为 pdf. 此 法 的 优 缺 点 同 b. 

d. 利用 strnghrs 的 Pdg2Pic 程序 和 FreePic2Pdf 程序 直接 完成 ， 此 方法 简单 
快捷 ， 不 损失 图 像 质量 ， 也 不 增加 文件 大 小 ， 推 荐 ! 

12. 如 何 避 免 ssreader 3.9 的 超过 本 月 打印 限制 ? 

a. 备份 安装 目录 下 的 ssreaderul， 或 将 安装 目录 下 的 ssreader.ul 设 为 只 读 。 
若 提示 打印 页 数 己 满 ， 用 原来 备份 的 ssreaderul 覆盖 掉 原 来 的 即 可 。( 据 会 员 发 
贴 整理 ， 版 主 没有 验证 。) 

b. 寻找 补丁 或 者 破解 ， 如 ssloader 

13.1xh 的 pdg 格式 可 以 转换 为 02h 格式 喝 ? 

可 以 。 可 以 转换 的 软件 有 1lxhkiller( 已 经 删除 ， 不 再 提供 )，pdgll 和 boox 
viewer (部 分 不 支 持 ), 注 期 版 mini pdg reader. 

14. axh 的 pdg 格式 可 以 转换 为 05h 格式 吗 ? 

可 以 。 可 以 转换 的 软件 有 axhkiller( 仅 仅 文 持 部 分 axh 格式 ， 已 经 删除 ， 不 再 
提供 )， 注 册 版 mini pdg reader. 另外 cheming 的 Pizza v1.0 Lite( 解 码 pdg 格式 的 
软件 ) 可 以 将 lxH,axH, 04H 转换 为 原始 的 00H 格式 ， 推 荐 ! 

15. 6xh 的 pdg 格式 可 以 转换 为 02 或 者 05h 格式 吗 ? 

可 以 。 可 以 转换 的 软件 有 注册 版 mini pdg reader. 另外 cheming 的 Pizza Pro 
v1.3( 解 介 pdg 格式 的 软件 ) 可 以 将 1xH,axH, 04H, 6xH 等 转换 为 原始 的 00H 格 式 ， 
推荐 ! 

16. 如 何 避 免得 到 FFh 格式 ? 

FFh 格式 的 原始 格式 为 axh 格式 ， 一 般 可 以 在 线 阅读 ， 用 ssreader 下 载 后 变 
成 FFh 格式 ， 文 件 头 被 破坏 ， 不 能 阅读 ， 也 不 能 修复 。 为 避免 得 到 FFh， 可 以 在 
ssreader 在 线 阅 读 用 网 络 噢 探 软件 截留 ， 可 以 采用 第 三 方 软件 如 BE 下 载 ， 可 以 
采用 破解 版 本 的 ssreader 下 载 。 本 版 不 负责 提供 相关 软件 ， 也 不 回答 如 何 截留 等 
问题 。 

17. pdg 可 以 在 线 阅读 但 是 不 能 下 载 ， 怎 么 办 ? 

答案 同 16。 

18. 6xh 加 密 格式 的 pdg 如 何 直接 在 不 同 机 器 阅读 ”? 

方 法 1: 购买 mini pdg reader, 然 后 申请 reader key 

方 法 2: 购买 ssloader 

方法 3: 购买 mini pdg reader professional 

19. 不 同 版 本 的 超星 阅读 器 能 安装 和 运行 在 一 台电 脑 上 吗 ? 

可 以 。 但 安装 时 一 定 要 注意 不 要 宪 盖 文件 ， 因 为 超星 阅读 器 使 用 的 某 些 文件 
可 能 均 放 在 系统 目录 下 。 有 些 还 必须 注册 才能 使 用 。 要 使 得 多 个 版 本 都 能 正常 切 
换 运 行 ， 最 好 的 办 法 是 到 论坛 寻找 多 版 本 启动 器 。 





































































































































































































http://www.readfree.net/bbs/read.php?tid=4477073&keyword= 


DjVu 转 PDG 的 方法 与 步骤 





作者 : 马 健 

声明 : 

1、 谨 以 此 文献 给 喜欢 折腾 的 各 位 热血 人 士 ， 不 喜欢 折腾 的 就 不 必 看 了 。 

2、 本 文 欢迎 转载 ， 不 过 转载 的 时 候 请 注 明 原作 者 为 strnghrs。 

3、DjVu 转换 成 PDG 后 , 打電 可能 会 有 点 慢 : 既然 在 空间 上 赚 取 了 利润 ， 
在 时 间 上 付出 一 点 成 本 也 是 应 该 的 。 

一 、 准 备 散 页 DjVu 

怎么 获得 DjVu 文件 就 不 必 问 我 了 ， 问 了 也 不 会 有 结果 。 

如 果 获 得 的 是 打包 后 的 多 页 DjVu, 可以 用 DjVuToy 的 “文件 拆 分 ”功能 拆 
开 。 

二 、 文 件 更 名 

散 页 DjVu 需要 更 名 为 PDG， 并 且 符 合 PDG 文件 名 规范 : 主 文件 名 为 6 位 
字母 、 数 字 , 控 制 名 位 pdg， 均 为 小 写 。 

主 文 件 名 由 前 绥 加 数字 组 成 ， 前 绥 含 义 为 : 

cov: 封面 

bok: 书 名 

leg: 版 权 

fow: 前 言 

!: 目录 

att: 附录 

bac: 封底 

ins: 插页 

正文 页 无 前 级 ， 直 接 用 6 位 数字 编码 。 

更 名 工具 很 多 ， 我 习惯 用 RenameIt。 如 果 有 人 做 个 专用 工具 ， 估 计 能 赚 点 
论坛 币 出 来 。 
























































三 、 转 成 真正 PDG 文件 
PDG 文件 本 身 是 支持 DjVu 压缩 的 ， 只 是 需要 在 前 面 加 上 PDG 文件 共 , 所 
以 转换 完成 后 ， 文 件 总 长 度 会 比 原 DjVu 文件 总 长 度 大 一 点 。 
转换 方法 : 用 DjVuToy 的 “PDG 压缩 ”功能 ， 选 择 上 一 步 中 名 为 PPDG， 实 
为 DjVu 的 文件 所 在 文件 夹 ， 注 意 不 要 选 “ 转 换 为 快速 版 ”这 样 可 以 保证 最 大 
限度 保持 清晰 度 。 
对 于 黑白 单 层 DjVu (只 有 Sjbz 段 ， 无 FG44、BG44、FGbz 等 ), DjVuToy 
会 在 PDG 文件 头 后 直接 舱 入 原 DjVu 文件 , 实现 无 损 转 换 。 对 于 灰 度 、 彩 色 DjVu 
( 含 FG44、BG44、FGbz 等 段 )， 由 于 PDG 浏览 器 对 这 类 文件 的 解释 与 众 不 同 
(上 下 颠倒 、 颜 色 互 换 ), 所 以 只 能 先 解码 ,再 重新 压缩 成 单 层 DjVu( 只 含 BG44), 
因此 文件 质量 或 长 度 可 能 会 有 一 点 损失 。 
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用 DjVuToy v0.11 玩 转 DjVu 中 的 隐藏 文字 





Q: OCR 功能 有 什么 用 ? 在 什么 情况 下 可 以 使 用 ? 

A: OCR 功能 在 DjVu 文件 中 生成 隐藏 文本 ， 这 些 文 本 平时 不 可 见 ， 但 可 用 
WinDjVu 的 “Edit->Find” 功 能 检索 ， 也 可 以 用 “File->Export Text” 功 能 导出 。 
隐藏 文本 不 仅 有 文本 信息 ， 而 且 有 位 置信 息 ， 因 此 用 鼠标 按 住 左 键 在 DjVu 页 面 
上 拖 动 ， 可 以 选中 隐藏 文字 ， 并 复制 到 剪贴 板 。 

DjVuToy 的 OCR 功能 对 DjVu 中 的 原始 图 像 不 会 造成 任何 影响 ， 因 此 可 以 
对 其 它 软件 生成 的 DjVu 文件 进行 OCR， 以 实现 强 强 联合 : 目前 DjVu 制作 软件 
以 国外 的 为 佳 ， 但 是 国外 DjVu 制作 软件 在 OCR 中 文 时 总 觉得 不 如 本 土 软件 。 
DjVuToy 的 OCR 引擎 是 微软 从 清华 购买 的 ， 中 文 OCR 效果 不 错 。 

当然 再 好 的 OCR 软件 都 不 可 能 完全 准确 ,因此 DjVuToy 提供 了 独创 性 的 “ 导 
出 XML 文本 “导入 XML 文本 ”功能 ， 可 以 将 隐藏 文本 及 其 位 置信 息 以 XML 
格式 导出 ， 进 行人 工 校对 ， 然 后 再 导入 DjVu 文件 。 另外 这 两 个 功能 也 可 以 用 
于 文本 的 繁 简 转换 ， 将 繁体 导出 ， 用 TextForever 或 其 它 转 码 软件 转 成 简体 ， 然 
后 再 导入 。 

当然 如 果 您 有 更 好 的 OCR 引擎 ， 也 可 以 自己 写 一 个 软件 ，OCR 后 输出 符合 
DjVuToy 格式 要求 的 XML 文件 ， 然 后 用 DjVuToy 导入 。 

DjVuToy 的 OCR 功能 需要 微软 Office 2003 以上 版本 的 Microsoft Office 
Document Imaging 的 支持 ， 对 于 Office 2003、2007， 这 个 功能 可 能 缺 省 安装 都 没 
有 装 全 (Office 2007 的 缺 省 安装 干脆 就 没 装 )， 需 要 补充 安装 。 
在 简体 中 文 环境 下 OCR 繁体 中 文 ， 及 在 繁体 中 文 环境 下 OCR 简体 中 文 的 
方 法 , 可以 google 我 写 的 《用 Pdg2Pic、TextForever 实现 批量 OCR》 一 文 。 











































































































更 多 说 明 见 DiVuToy 使 用 说 明 。 
新 版 售 价 小 涨 至 75 币 ， 当 年 30 币 买 入 的 可 以 偷 着 乐 了 。 














为 了 增加 说 服 力 ， 增 加 一 个 例子 : 从 中 美 百 万 下 载 的 繁体 、 竖 排 明 河 版 《 倚 
天 屠龙记 》。“ 原 版 ” 指 的 是 百 万 版 ， 明 显 可 以 看 出 是 把 繁体 当 作 简体 OCR;“ 简 
体 ” 是 用 DjVuToy 进行 繁体 OCR-> 导 出 -> 繁体 转 简 体 -> 导入 ， 可 以 看 出 错别字 
少 多 了 ;“ 校 对 ” 则 是 将 “简体 ”的 文字 导出 ， 校 对 ， 然 后 再 导入 ， 基 本 上 没有 


普 别 字 。 
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在 简体 中 文 Office 2003 下 OCR 繁体 中 文 、 日 文 、 韩 文 





作者 : 马 健 
邮箱 : stronghorse@tom.com 
主页 ; http://stronghorse.yeah.net 
发 布 : 2007.12.08 
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一 


在 简体 中 文 Office 2003 下 用 Micorsoft Office Document Imaging (MODD 做 


OCR 的 步骤 为 : 

















先 确保 MODI 已 经 正常 安装 。Office 2003 的 缺 省 安装 是 第 一 次 使 用 MODI 


























时 安装 ，Office 2007 的 缺 省 安装 是 不 装 ， 都 需要 改过 来 。 


在 资源 管理 器 里 选中 某 个 多 页 TIFF 文件 ， 从 右键 菜单 选择 用 Micorsoft 








Office Document Imaging 打开 。 
打开 后 , 先 选择 “工具 -> 选项 ”对 OCR 选项 进行 设置 。 
动 拉 伸 和 “自动 旋转 ”选项 ， 再 选择 合适 的 语言 。 














常规 设置 是 去 掉 “ 自 





选择 “工具 -> 将 文本 发 送 到 Word ”, 在 弹出 的 对 话 框 中 选择 “所 有 页 面 ”,“ 在 




















输出 时 保持 图 片 版 式 不 变 ” 然后 选择 默认 文件 夹 ， 点 “确定 ” 即 可 开始 OCR。 
OCR 结束 后 ， 文 本 自动 发 送 到 Word。 缺 省 格式 是 HIML， 当 然 也 可 以 另存 











为 txt、doc。 
与 其 他 商业 OCR 软件 相 比 ，MODI 具有 下 列 特 点 : 











支持 多 页 TIFF。 某 些 OCR 只 支持 单 页 TIFF, OCR 以 后 还 需要 对 结果 进行 


合并 。 当 然 MODI 支 持 的 TIFF 页 数 也 不 是 无 限 的 , 我 个 人 的 
页 。 单 页 TIFF 文件 可 以 用 免费 的 TiffToy 合并 成 多 页 TIFF, 





经 验 是 不 要 超过 300 
然后 再 用 MODI 进 


行 OCR。TiffToy 合并 时 可 以 选择 每 合并 多 少 个 文件 生成 一 个 新 文件 。 
中 文 标点 、 文 本 段落 保持 得 比较 好 ， 后 期 校对 省 了 很 多 事 。 
支持 的 语言 比较 多 ，Office 文 持 的 语言 基本 都 文 持 。 但 是 这 一 点 对 大 多 数 用 



































户 来 说 无 法 体会 ， 因 为 正常 情况 下 ，MODI 只 支持 英文 和 当前 Office 语言 (如 简 
体 中 文 ) 的 OCR， 要 想 支 持 更 多 的 语言 ， 需 要 进行 一 些 设置 ， 这 就 是 本 文 所 要 
讨论 的 内 容 。 当 然 我 并 非 语言 天 才 ， 对 于 亚洲 主要 语言 (中 、 日 、 韩 ) 还 算 有 所 
了 解 ， 其 他 语言 一 概 无 知 ， 所 以 本 文 的 讨论 也 仅 限 于 这 三 国语 言 。 

提供 开放 的 编程 接口 。 对 于 软件 开发 人 员 来 说 ， 到 微软 网 站 下 载 一 份 MODI 
编程 手册 ， 即 可 开发 出 基于 MODI 的 、 具 有 多 国语 言 OCR 功能 的 软件 。 

在 正式 开始 讨论 系统 设置 前 ， 先 透露 一 点 技术 背景 : 






























































MODI 所 使 用 的 中 、 日 、 韩 OCR 引擎 ， 均 为 清华 文通 的 OCR 引擎。 
由 于 简体 中 文平 台 的 GBK 字符 集 完 全 履 盖 繁体 中 文 、 日 文 ,因此 繁体 中 文 、 
日 文 的 OCR 结果 在 简体 中 文 Office 环境 下 均 为 GBK 编码 , 可以 在 支持 GBK 编 
码 的 中 文平 台 下 正常 显示 、 编 辑 。 当 然 如 果 觉 得 繁体 中 文 看 起 来 比较 麻烦 ,也 可 
以 用 Word 的 繁 简 转 换 功 能 ， 或 TextForever 的 编码 转换 功能 ， 将 GBK 繁体 转换 
成 GB 编码 的 简体 。 但 是 对 于 置 文 来 说 就 没有 这 么 美好 了 ， 因 为 目前 GBK 还 不 
兼容 坊 文 ， 所 以 咏 文 的 OCR 结果 如 果 想 在 简体 Office 下 编辑 ， 大 概 只 能 存 为 
HTML 或 doc 文件 ， 然 后 用 Word 编辑 。 
MODI 编程 手册 可 以 到 这 里 下 载 : 
http://www.microsoft.com/downloads/details.aspx7Familyld=8F93E445-B1CF-4 
477-A373-E17417D616BC&displaylang=en 

































































二 、 系 统 配 置 
1、 原 性 
要 想 让 简体 中 文 Office 2003 能 够 OCR 繁体 、 日 文 、 韩 文 ， 需 要 做 的 工作 包 
括 两 个 方面 : 




















安装 相关 语言 的 OCR 模块 。MODI 本 身 可 以 看 作 一 介 外 完 , 真正 的 OCR 功 
能 需要 靠 不 同 语言 的 模块 实现 。 每 个 语言 模块 包括 相关 DLL 文件 和 数据 文件 ， 
需要 复制 到 MODI 的 安装 文件 夹 下 。 

告诉 MODI, 目前 有 哪些 语言 的 OCR 模块 可 以 使 用 。 这 个 需要 更 改 注册 表 ， 
更 改 后 在 MODI 的 OCR 选项 里 即 可 选择 对 应 的 语言 。 

2、 实 战 

繁体 中 文 配 置 

找 一 台 安 装 了 繁体 中 文 Office 2003 的 机 器 ， 进 入 MODI 的 安装 文件 夹 ， 缺 
省 为 : 
C:\Program Files\Common Files\Microsoft SharedMMODIU1.0 
将 下 面 的 文件 复制 到 安装 了 简体 中 文 Office 2003 的 相同 文件 夹 下 : 
TCCODE.UNI 
TCPRINTDAT 
TCPRINT2.DAT 
TCSERHTDAT 
TCTREE.DAT 
TW_BU.DAT 
TW_UB.DAT 
TWBIGS32.DLL 



























































复制 完成 后 ， 用 记事 本 创建 一 个 reg 文件 ， 把 下 面 内 容 粘贴 后 存盘 : 
Windows Registry Bditor Version 5.00 





[HKEY_CURRENT_USERUSoftwareMicrosoftJnstallerComponents61BA386 


016BD0C340BBEAC273D84FDSF] 


\ 


"1028"=hex(7):28,00,26,00,48,00,42,00,56,00,6e,00,2d,00,7d,00,66,00,28,00,5a, 


00,58,00,66,00,65,00,41,00,52,00,36,00,2e,00,6a,00,69,00,4f,00,43,00,52,00,\ 
5f,00,31,00,30,00,32,00,38,00,3e,00,7d,00,60,00,45,00,4d,00,61,00,65,00,2c,\ 
00,37,00,71,00,39,00,2a,00,44,00,58,00,64,00,55,00,40,00,45,00,50,00,69,00,\ 
3d,00,00,00,00,00 

双击 此 reg 文件 导入 注册 表 后 ， 在 MODI 的 OCR 选项 卡 里 ,“OCR 语言 ” 





即 可 看 到 “中 文 (繁体 )”。 注 童 导入 注册 表 时 必须 先 关 闭 所 有 MODI 窗口 ， 导 
入 后 再 打开 。 


在 简体 中 文 环境 下 ， 按 照 上 述 步骤 设置 后 ， 用 MODI 识别 出 来 的 繁体 中 文 


是 GBK 编码 的 繁体 字 ， 可 以 用 Word 的 繁 简 转换 ， 或 TExtForever 的 编码 转换 功 


ab 
EE 


(支持 批 量 ) 转换 成 GB 编码 的 简体 字 。 
日 文 配置 
需要 从 日 文 MODI 复制 到 简体 MODI 文件 夹 下 的 文件 为 : 
JPCODE.UNI 

JPPRINT.DAT 

JPPRINT2.DAT 

JPSBRHT.DAT 

JPTREE.DAT 

TW_SU.DAT 

TW_US.DAT 

TWRECJ.DLL 

TWSJIS32.DLL 

需要 导入 的 reg 内 容 为 : 

Windows 人 Registry Editor Version 5.00 























[HKEY_CURRENT_USBRNSoftwareVMicrosoftMnstallenComponents\61BA386 


016BD0C340BBEAC273D84EFDSF] 


\ 

















编码 ， 可 以 在 支持 GBK 字符 集 的 简体 中 文 环境 下 正常 显示 、 编 辑 。 


"1041"=hex(7):30,00,5d,00,67,00,41,00,56,00,6e,00,2d,00,7d,00,66,00,28,00,5a, 


00,58,00,66,00,65,00,41,00,52,00,36,00,2e,00,6a,00,69,00,4f,00,43,00,52,00,\ 
5f,00,31,00,30,00,34,00,31,00,3e,00,2e,00,61,00,45,00,4d,00,61,00,65,00,2c,\ 
00,37,00,71,00,39,00,2a,00,44,00,58,00,64,00,55,00,40,00,45,00,50,00,69,00 ハ 
3d,00,00,00,00,00 

配置 成 功 后 ， 在 MODI 的 OCR 选项 卡 里 ,“OCR 语言 ” 即 可 看 到 “日 语 ”。 
在 简体 中 文 环境 下 , 按照 上 述 步 又 设置 后 , 用 MODI 识别 出 来 的 日 文 是 GBK 















































電文 配 
需要 从 韩文 MODI 复制 到 简体 MODI 文件 夹 下 的 文件 为 : 





DATASIM.DAT 
HANGULLB.DAT 
KRCODE.UNI 
KRDIST.DAT 
KRPRINTLDAT 
KRSERHTL.DAT 
KRTREE.DAT 
TW_KU.DAT 
TW_UK.DAT 
TWCUTCKR.DLL 
TWCUTLKR.DLL 
TWKSC32.DLL 
TWLAYKR.DLL 
TWRECK.DLL 

需要 导入 的 reg 内 容 为 : 
Windows Registry Editor Version 5.00 





[HKEY_CURRENT_USER\Software\Microsoft\Installer\Components\61BA386 


016BD0C340BBEAC273D84FDSF] 


\ 


"1042"=hex(7):31,00,5d,00,67,00,41,00,56,00,6e,00,2d,00,7d,00,66,00,28,00,5a, 


00,58,00,66,00,65,00,41,00,52,00,36,00,2e,00,6a,00,69,00,4f,00,43,00,52,00,\ 
5f,00,31,00,30,00,34,00,32,00,3e,00,30,00,61,00,45,00,4d,00,61,00,65,00,2c,\ 
00,37,00,71,00,39,00,2a,00,44,00,58,00,64,00,55,00,40,00,45,00,50,00,69,00\ 
3d,00,00,00,00,00 

配置 成 功 后 , 在 MODI 的 OCR 选项 卡 里 ,“OCR 语言 ” 即 可 看 到 “朝鲜 语 ”。 
在 简体 中 文 环境 下 ， 按 照 上 述 步骤 设置 后 ， 用 MODI 识别 出 来 的 陆 文 是 韩 














文 编 码 (charset:129)， 可 以 存 为 HTML、doc， 并 能 在 Word 里 正常 显示 、 编 辑 。 


如 果 存 为 TXT， 则 不 能 在 简体 中 文 环境 下 显示 、 编 辑 。 




















简体 中 文 配置 
如 果 需 要 在 繁体 中 文 环境 下 OCR 简体 中 文 ， 最 正宗 的 方法 是 下 载 、 安 闭 一 

















简体 MODI: 


http://www.microsoft.com/downloads/details.aspx7familyid=dd172063-9517-41 


d8-82af-29c38f7437b6&displaylang=zh-tw 





当然 如 果 想 省 事 ， 也 可 以 复制 下 列 文件 : 
SCCODE.UNI 

SCPRINT.DAT 

SCPRINT2.DAT 

SCSERHT.DAT 

SCTREE.DAT 

TW_GU.DAT 

TW_UGDAT 

TWGB32.DLL 

需要 导入 的 reg 内 容 为 : 








Windows Registry Bditor Version 5.00 


[HKEY_CURRENT_USERUSoftwareMicrosoftJnstallerComponents61BA386 
016BD0C340BBEAC273D84FDSF] 
"2052"=hex(7):4d,00,6a,00,33,00,47,00,51,00,66,00,5e,00,62,00,54,00,3f,00,42,\ 
00,3f,00,56,00,50,00,24,00,5e,00,62,00,53,00,6c,00,6c,00,3e,00,25,00,6d,00,\ 
45,00,4d,00,61,00,65,00,2c,00,37,00,71,00,39,00,2a,00,44,00,58,00,64,00,55,\ 
00,40,00,45,00,50,00,69,00,3d,00,00,00,00,00 


三 、 其 他 讨论 
详 见 《用 Pdg2Pic、TextForever 实现 批量 OCR]》。 


http://www.readfree.net/bbs/read.php?tid=202214&keyword= 


PDG 转 PDF 注定 会 文件 膨胀 、 质 量 下 降 吗 ? 
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事 先 声 明 : 








PDG 文件 是 超星 公司 电子 图 书 的 专 有 格式 ， 需 要 用 超星 公司 的 专用 浏览 器 
才能 阅读 。 本 文 讨论 PDG 转 PDF 的 方法 ， 仅 出 于 技术 研究 目的 ， 并 无 意 对 超星 
公司 的 版 权 进 行 任何 形式 的 侵犯 , 也 不 希望 任何 人 用 本 文 讨论 的 工具 或 方法 从 事 
侵权 活动 。 如 果 需 要 浏览 PDG 电子 书 ， 请 通过 购买 点 卡 等 方式 ， 以 合法 的 途径 
获得 。 本 文 认为 用 户 通过 合法 的 手段 获得 PDG 文件 ， 只 是 由 于 希望 能 够 在 比 超 
星 浏览 器 更 好 、 更 方便 的 浏览 器 上 阅读 ,并 且 不 对 转换 出 来 的 文件 进行 扩散 的 情 
况 下 ， 才 需要 将 PDG 文件 转换 成 PDF 文件 。 

本 文 所 说 PDG， 是 指 最 常见 的 纯 图 像 格式 PDG 文件 ， 不 包括 罕见 的 文本 、 
PDF、HTML 等 格式 的 PDG 文件 。 

对 于 标题 所 提问 题 ， 我 的 回答 是 ， 大 多 数 情况 下 转换 后 文件 长 度 应 该 相当 ， 
略 有 增加 或 减少 ， 质 量 应 该 保持 不 变 。 如 果 文 件 长 度 、 画 面 质量 差 很 多 ， 多半 是 
用 错 了 方法 或 软件 。 本 文 将 说 明理 由 。 
















































































注意 在 上 面 的 回答 中 我 使 用 了 “大 多 数 ” 等 表示 概率 的 词汇 ， 因 此 在 讨论 答 
案 之 前 , 需要 先 对 PDG 文件 格式 进行 分 类 , 并 估计 每 种 PDG 文件 出現 的 可能 性 。 











目前 比较 流行 的 分 类 方法 是 按照 PDG 文件 第 16 字 节 分 类 ， 通 常 PDG 文件 
格式 检查 软件 都 是 按照 这 个 字 节 的 16 进 制 报告 文件 类 型 ， 如 00H、02H、03H、 
04H、05H、10H、11H、AAH、ACH、64H、66H 等 等 。 由 于 这 种 分 类 法 分 出 来 
的 类 型 较 多 (理论 上 有 256 种 )， 所 以 通常 也 按 字 节 高 4 位 进行 归 类 ， 简 称 0xH、 
lxH、AxH、6xH 等 。 




















这 种 分 类 方法 可 以 表示 出 PDG 文件 的 加 密 特征 : 








00H 是 最 早 ， 也 是 最 原始 的 PDG 格式 ， 其 格式 为 : PDG 文件 头 十 原始 图 像 
数据 流 。 原 始 图 像 数据 流 包括 CCITT G4 (黒白 図像 )、 JPG (彩色 / 灰 度 )、DjVu 
(黑白 /彩色 / 灰 度 )。 在 超星 服务 器 上 ， 这 种 格式 的 文件 已 经 非常 少见 , 但 是 由 于 
这 种 格式 阅读 的 时 候 不 需要 解密 ， 因 此 阅读 时 的 速度 感觉 比 其 它 格式 的 要 快 ， 
所 以 也 有 人 用 第 三 方 软件 自己 将 其 它 格式 转换 成 00H 格式 。 
0xH 是 对 00H 的 弱 加 密 格式 , 通常 02H、03H 用 来 加 密 CCITT G4 图 像 , 04H 















































加 密 JPG, 05 加 密 DjVu。 顺 便 说 一 句 ， 可 能 是 为 了 尽量 减 小 文件 长 度 ， 超 星 在 
压制 DjVu 时 ， 用 的 都 是 有 损 压缩 ， 可 能 会 对 汉字 笔划 造成 损伤 ， 这 也 是 为 什么 
经 常 听 到 有 人 说 05H 不 如 02H 清晰 的 原因 之 一 。 

1xH 是 比 0xH 更 强 的 加 密 ， 加 密 方 法 不 再 与 原始 图 像 格 式 对 应 ， 如 11H 可 
以 加 密 CCITT G4， 也 可 以 加 密 JPG、DjVu。 

AxH 的 加 密 强 度 比 1xH 更 强 ， 加 密 方法 也 不 与 原始 图 像 格 式 对 应 。 正 版 超 
星 浏 览 器 如 果 下 载 到 AxH 格 式 的 PDG, 会 将 其 完全 破坏 后 变 成 FFH 格 式 的 PDG。 
6xH 是 正版 超星 浏览 器 从 服务 器 下 载 到 PDG 文 件 后 在 本 地 加 密生 成 的 文件 。 
由 于 6xH 加 密使 用 了 本 地 硬盘 “指纹 ” 因此 只 能 在 下 载 的 机 器 上 看 ， 换 一 人 台 就 
不 能 

但 是 加 密 方 法 毕竟 是 超星 自己 的 事 ， 用 这 种 分 类 方法 往 PDF 格式 上 套 未 免 
有 点 难 。 所 以 我 更 愿意 用 另 一 种 分 类 标准 : 超星 浏览 器 自 带 的 Pdg2 控件 的 
GetImageType 方法 的 返回 值 。 这 个 方法 通常 返回 1、2、3, 在 Pdg2Pic 中 分 列 用 
T1、T2、T3 表示 , 即 Typel、Type2、Typ3 的 意思 ， 分 别 对 应 三 种 图 像 : 































































































T1: 黑白 图 像 ， 原 始 图 像 格式 为 CCITT G4 或 DjVu。 

T2: 灰 度 /彩色 图 像 ， 原 始 图 像 格 式 为 JPG 或 Djvu。 可 能 超星 觉得 扫描 时 区 
别 灰 度 、 彩 色 太 麻烦 了 ， 所 以 灰 度 图 像 一 律 按 彩 色 存 储 ， 这 也 是 国内 扫描 外 包 
商 的 通常 做 法 ， 但 是 对 技术 较真 的 客户 一 般 会 要 求 外 包 商 举行 区 别 。 

T3: 多 层 图 像 ， 底 层 黑白 文字 层 通常 用 CCITT G4， 上 层 插图 用 JPG。 我 猜 
测 这 种 类 型 应 该 是 在 DjVu 基础 上 发 展 出 来 的 ， 符 合 “ 按 需 存 储 ” 的 原则 : 对 于 
要 的 文字 层 使 用 无 损 压 缩 ， 对 于 相对 不 重要 的 插图 则 用 有 损 压 缩 存储 。 

从 出 现 的 概率 来 说 ， 这 三 种 格式 按 从 高 到 低 排 列 依次 是 T1、T3、T2: 














































































































最 常见 的 格式 还 是 T1， 毕 竞 大 多 数 书籍 都 是 白 纸 黑 字 。 

T3 出 现 的 概率 比 TI 小 ， 一 般 用 于 图 文 混 排 的 插图 页 ， 或 某 些 彩 印 书籍 。 
T2 出 现 的 概率 最 小 ， 毕 竞 除了 封面 和 某 些 特殊 书籍 外 ， 整 页 都 是 图 的 情况 

在 一 本 书 里 也 不 会 有 几 页 ， 而 封面 、 封 底 还 有 很 大 一 部 分 直接 用 JPG 文件 存储 。 
在 转换 成 PDF 时 , 正常 情况 下 这 三 种 格式 与 PDF 中 広 役 算法 的 対 成 共 糸 用: 























T1: CCITT G4 或 JBig2。 

T2: JPEG 或 JPEG 2000。 

T3: 这 个 比较 复杂 ,取决 于 转换 软件 : 可 以 转换 成 多 层 PDF, 也 可 以 将 PDG 
中 的 所 有 层 合并 成 一 个 图 像 再 放 入 PDF。 

如果 T1 原始 图 像 是 CCITT G4， 转 换 成 PDF 的 CCITT G4 后 文件 尺寸 会 略 
有 膨胀 ， 因 为 PDF 文件 本 身 要 增加 一 些 必要 的 格式 信息 ; 如果 转换 成 PDF 的 
JBig2, 通常 文件 尺寸 不 会 增加 , 只 会 减少 , 毕竟 JBig2 的 压缩 算法 要 比 CCITT G4 
更 先进 。 
































如果 T1 原始 图 像 是 DjVu， 转 换 成 PDF 的 CCTTT G4 后 文件 无 疑 将 会 膨胀 ; 
转换 成 JBig2 则 取决 于 是 有 损 JBig2 还 是 无 损 JBig2。 理 论 上 说 ，DjVu 对 黑白 图 
像 的 压缩 能 力 与 JBig2 相当 ， 但 由 于 超星 用 的 全 是 有 损 DjVu， 因 此 转换 成 PDF 
时 只 有 选 有 损 JBig2 才能 保持 二 者 尺寸 大 臻 相当， 选 无 损 JBis2 则 会 造成 文件 
膨胀 。 由 于 有 损 压缩 会 对 汉字 笔划 造成 损伤 ， 因 此 我 宁愿 文件 长 度 膨 胀 ， 也 不 愿 






































选择 有 损 。 








如果 T2 原始 格式 是 卫 G， 转 换 结果 取决 于 转换 软件 :如果 转换 软件 能 够 直 
接 从 PDG 文件 中 提取 原始 JPG 数 据 流 藤 入 PDF， 则 PDF 文件 只 会 略 有 脱 胀 , 
质量 不 变 ; 如 果 转 换 软 件 非 要 把 PDG 先 解码 成 BMP 再 压缩 成 JPG 或 JPEG 2000 
放 到 PDF 里 ， 文 件 长 度 可 能 增加 也 可 能 减 小 ， 取 决 于 所 选 的 压缩 比 ， 但 是 在 缺 
省 的 压缩 比 下 ， 质 量 下降 是 注定 了 的 。 























如果 T2 原始 格式 是 DjVu， 用 于 目前 的 PDF 规范 不 支持 DjVu (不 排除 将 来 
会 支持 ), 因此 只 能 将 DjVu 先 解码 成 BMP 再 压缩 成 JPG 或 JPEG 2000 放 到 PDF 
里 ， 文 件 长 度 可 能 增加 也 可 能 减 小 ， 质 量 多 半 会 下 降 。 








对 于 T3， 如 果 转 换 软件 能 够 直接 从 PDG 文件 中 提取 原始 JPG 数据 流散 入 
PDF 文件 ， 并 且 用 无 损 JBig2 压缩 原 CCITT G4 图 像 ， 则 PDF 文件 尺寸 会 减 小 ， 
同时 质量 不 变 ; 如 果 转 换 软 件 非 要 把 多 层 合并 成 一 层 ,再 压缩 成 JPG 或 JPEG 2000 
放 到 PDF 里 ， 通 常 文件 长 度 会 增加 ， 质 量 会 下 降 : PG 或 JPEG 2000 都 不 适合 
压缩 文字 网 像 。 














综 上 所 述 ， 从 原理 上 说 ， 对 于 最 常见 的 黑白 PDG， 转 换 成 PDF 后 应 该 长 度 
略 有 减少 ， 质 量 保持 不 变 ， 对 于 带 插图 的 多 层 PDG， 转 换 成 PDF 后 应 该 长 度 略 
有 减少 ， 质 量 保持 不 变 ， 对 于 纯 图 像 页 面 的 PPG， 转 换 后 长 度 可 能 略 有 增加 而 
质量 不 变 ， 也 可 能 长 度 、 质 量 都 有 较 大 变化 ， 但 是 这 种 页 面 毕 觉 不 多 。 
































现在 各 位 明白 我 在 本 文 开 始 部 分 给 出 的 回答 的 含义 了 吧 ? 





在 明白 的 同时 , 我 相信 也 会 有 人 合理 地 引伸 出 男 外 一 个 问题 ; 为 什么 现在 大 
家 看 到 从 PDG 转 出 来 的 PDF， 会 和 原始 PDG 差 那 么 多 ? 














我 认为 这 方面 最 大 的 罪魁 祸首 就 是 广 为 流 传 的 “打印 大 法 ”: 将 PDG 文件 直 
接 从 超星 浏览 器 打印 到 虚拟 PDF 打印 机 。 这 种 方法 的 制约 因素 我 已 经 在 《PDG 
转 图 像 、PDF 的 若干 方法 》 一 文中 加 以 说 明 ， 对 转换 出 来 的 PDF 举行 分 析 所 需 
的 工具 和 方法 ， 也 在 《图 像 转 PDF 的 问题 、 方 法 及 题 外 话 》 一 文中 详细 说 明 ， 
喜欢 较真 的 人 不 妨 自己 验证 ， 这 里 我 只 说 我 的 结论 : 只 要 用 打印 的 方法 ,不 论 如 
何 破解 、 如 何 发 现 新 的 突破 方法 ， 打 出 来 的 PDF 文件 膨胀 、 质 量 下 降 那 是 注定 
了 的 ， 想 改 都 难 ， 更 何况 还 会 受到 软件 方面 的 种 种 限制 ， 所 以 奉劝 各 位 还 是 趁 
早 放弃 。 





















































另外 一 种 所 谓 “ 利 用 中 间 BMP” 的 转换 方法 也 会 产生 问题 : 有 人 先 用 BooX 
Viewer 或 其 它 软件 将 PDG 转换 成 BMP, 再 用 Acrobat 或 其 它 软件 将 BMP 转换 
成 PDF。 这 种 方法 只 能 将 T1 图 像 无 损 转换 成 PDF， 对 于 T2、T3， 由 于 很 难 将 
BMP 图 像 无 损 存 入 PDF 〈 那 样 尺寸 膨胀 太 过 厉害 )， 只 能 再 压缩 成 JPG 或 JPEG 
2000 后 存 入 PDF， 因 此 质量 下 降 、 尺 十 膨胀 等 问题 是 免不了 的 。 















































那么 什么 样 的 方法 才 是 正确 的 转换 方法 呢 ? 














我 的 回答 是 : 条 条 大 道 通 罗 马 ， 只 要 抛弃 表层 皮毛 的 束缚 ， 直 接 深 入 到 文件 
格式 内 部 ， 就 可 以 找到 好 的 方法 。 就 我 自己 来 说 ， 最 常用 的 组 合 是 Pdg2Pic 十 
FreePic2Pdf: 











先 用 Pdg2Pic 将 PDG 直接 解码 成 常规 图 像 文件 。 能 够 将 PDG 转 图 像 的 软件 
不 少 ,但 是 Pdg2Pic 对 除 彩色 / 灰 度 DjVu 外 的 图 像 都 能 无 损 转 换 ， 尤 其 是 对 多 层 
PDG 的 无 损 分 解 ， 目 前 是 独一无二 的 。 

再 用 FreePic2Pdf 将 Pdg2Pic 的 结果 合并 成 PDF， 黑白 图 像 用 缺 省 的 Jbig2 
无 损 就 好 。 
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前 言 











前 言 








PDG 文件 是 超星 公司 电子 图 书 的 专 有 格式 ， 需 要 用 超星 公司 的 专用 浏览 器 
才能 阅读 。 本 文 讨论 PDG 转 图 像 、PDE 的 方法 ， 仅 出 于 研究 目的 ， 并 无 意 对 超 





























事 侵 权 活 动 。 如 果 需 要 浏览 PDG 电子 书 ， 请 通过 购买 点 卡 等 方式 ， 以 合法 的 途 


pA 


径 获 得 。 








本 文 








假定 用 户 通过 合法 的 手段 获得 PDG 文件 ， 只 是 由 于 希望 能 够 在 比 超星 

















星 公 司 的 版 权 进 行 任何 形式 的 侵犯 , 也 个 希望 任何 人 用 本 文 讨论 的 工具 或 万 法 从 


t 


浏览 器 更 好 、 0 
下 ， 才 需要 将 PDG 文件 转换 成 图 像 文件 或 PDF 文件 。 


二 、 堆 图 法 


简单 
片 ， 再 将 














斥 说 ,就 是 通过 截图 的 方法 ， 直 接 将 超星 浏览 器 中 显示 的 内 容 , 截 为 图 


图 片 转换 成 PDF 文件 。 


























这 个 方法 可 能 是 世界 上 最 简单 、 最 朴素 ， 也 是 最 容易 想到 的 方法 ， 并 且 对 于 
所 有 版 本 的 超星 浏览 器 和 所 有 能 够 正常 





的 因素 包 














括 : 





显示 的 PDG 文件 均 适 用 。 制 约 这 个 方法 











页 面 大 小 超出 显示 区 域 ， 导 致 截 图 截 不 全 。 解 决 的 办 法 包括 : 找 一 台 支 持 高 
分 辩 率 设置 的 PC (現在 17" 液 晶 已 经 很 便宜 ，19" 也 快 平 民 化 了 ); 如 果 显 卡 文 持 
旋转 显示 ， 则 将 整个 屏幕 旋转 90” 显示， 方便 显示 细 长 页 面 。 


























手工 一 页 一 页 截图 ， 劳 动 强度 比较 大 。 解 决 的 办 法 就 是 用 各 种 现成 的 按键 、 














県 本 球 制 / 描 放 秩 件 与 肩 幕 蔽 圏 秋 件 相生 合 , 或 者 自己 区 一 介 竹 翻 邊 帯 蔽 圏 的 小 
软件 ， 实 现 自 动 化 操作 。 

截 出 来 的 图 像 可 能 需要 进行 整理 ， 包 括 切 边 、 图 像 文 件 格式 转换 等 。 

总 之， 截图 发 虽然 有 一 些 限制 ,用 起 来 也 比较 麻烦 ,但 很 难 被 超星 屏蔽 ， 不 
失 为 一 种 终极 的 方法 。 






































三 、 打 印 法 


即 在 超星 浏览 器 中 发 布 打印 命令 , 将 正在 浏览 的 PDG 文件 打印 到 PDF 虚拟 
打印 机 (包括 Acrobat PDF 打 印 机 、PDFFactory 打印 机 等 )， 成 为 PDF 文件 。 

















这 种 方法 也 是 较 早 被 用 于 转换 PDG 文件 的 方法 之 一 , 而 且 用 起 来 非常 简单 、 
方便 ， 因 此 广 为 流 传 ， 导 致 后 来 超星 阅读 器 针对 这 种 方法 加 了 一 些 限 制 ， 但 是 这 
些 限 制 很 快 就 被 突破 ， 然 后 双方 就 这 样 乐 此 不 彼 、 义 无 反 顾 、 周 而 复 始 地 一 轮 、 
一 轮 折腾 下 去 。 昌 然 在 无 关 的 人 看 来 有 点 无 聊 , 但 是 投身 其 中 的 人 经 常 都 会 为 每 
一 个 微小 的 突破 而 激动 ， 还 真是 有 精神 寄托 的 人 生 。 



































目前 制约 这 个 方法 的 因素 包括 : 


超星 浏览 器 对 PDF 打印 机 的 封锁 。 新 版 超星 浏览 器 会 检查 打印 机 的 名 称 
发 现 是 PDF 打印 机 则 不 让 打印 。 不 过 超星 软件 毕竟 没有 人 和 智能， 打印 机 被 人 一 
改名 就 检测 不 出 来 了 。 也 有 人 先 将 PDG 打印 到 支持 Ul (PS) 文件 格式 的 
真实 打印 机 ， 再 用 Acrobat 将 PS 文件 转换 成 PDF 文件 ， 以 绕 过 超星 对 虚拟 打印 
机 的 检查 。 

召 星 浏 览 器 对 打印 页 数 的 限制 ,超星 浏览 器 会 限制 合法 用 户 每 个 月 的 打印 总 
页 数 ， 够 数 ( 每 月 一 千 页 ) 后 就 不 允许 打印 。 解 决 的 办 法 包括 将 ssreader.ul 文件 
属性 改 为 只 读 ， 或 定期 对 这 个 文件 进行 备份 、 恢 复 

如 星 浏 览 器 对 打印 效果 的 限制 。 新 版 本 的 超星 浏览 器 可 能 对 以 前 的 限制 与 
反 限 制 游 戏 终于 厌倦 了 ， 因 此 干脆 在 打印 的 时 候 降 低 打 印 质量 ， 导 致 打印 出 来 的 
PDF 图 像 质量 与 原始 PDG 文件 差 很 多 。 针 对 这 一 招 ， 目 前 网 上 提出 的 解决 办 法 
包括 将 新 版 DLL 文件 替换 为 旧版 DLL， 或 提高 打印 机 DPI 设置 等 

总 之 ， 在 我 看 来 ， 打 印 法 虽然 简单 方便 ， 打印 黑 白 图 像 也 问题 不 大 , 但 是 打 
印 灰 度 /彩色 图 像 会 出 现 图 像 质 量 衰减 或 文件 膨胀 等 问题 ， 所 以 至 少 我 自己 不 到 
不 得 已 是 不 会 用 的 。 




























































































四 、BooX Viewer 


BooX Viewer 是 Momotalo、ShunCox 、dd321 等 合作 开发 的 一 款 轻 量 、 绿 色 
PDG 浏览 器 ， 无 需 安装 ， 单 独 一 个 EXE 文件 即 可 运行 ， 并 且 能 够 直接 读 取 ZIP 
文件 中 的 PDG 文件 等 ， 这 些 都 比 原版 超星 济 览 器 强 ， 也 导致 了 它 的 流行 


























早期 版 本 的 BooX Viewer 提供 一 个 “转换 到 DjVu” 功 能 ， 该 功能 先 将 PDG 
文件 转换 成 BMP， 再 转换 成 DjVu 文件 。 因 此 也 有 人 利用 此 功能 的 前 半 部 分 ， 先 
将 PDG 文件 转换 成 BMP， 再 将 BMP 转换 成 PDF。 不 过 这 个 功能 在 后 来 的 版 本 








中 已 经 取消 了 ， 并 且 加 了 一 些 类 似 广告 的 限制 。 




















BooX Viewer 的 开发 基于 对 PDG 文 件 格式 的 分 析 , 不 需要 超星 浏览 器 或 DLL 
的 文 持 ， 并 且 能 够 解码 加 密 的 10H 等 格式 ， 这 些 都 让 我 对 其 开发 者 充满 了 敬意 。 














五 、pdg2bmp&jpg&tif&pdf&txt 




















这 个 软件 是 coolman 开发 的 ， 对 PDG 的 支持 (包括 OCR ) 基于 超星 Pdg2 
控件 ， 对 图 像 、PDF 的 支持 基于 Pegasus ImagXpress Professional 控件 ， 运 行 前 需 
要 先 注册 控件 。 














这 个 软件 的 发 行 范围 很 罕 ,， 最 新 版 是 多 少 我 也 不 知道 , 只 能 以 我 手 上 现 有 的 
3.8b0419 版 来 说 事 。 在 使 用 这 个 版 本 的 过 程 中 ， 我 发 现 它 存在 下 列 限制 : 














直接 将 PDG 转换 成 PDF， 则 所 有 彩色 、 灰 度 图 像 均 变 成 黑白 图 像 。 解 决 的 
办 法 是 先 转换 成 BMP, 再 用 其 它 软件 将 BMP 转换 成 PDF。 但 是 不 知道 为 什么 ， 
pdg2bmp&jpg&tif&pdf&txt 没有 文件 重新 编号 功能 ， 所 以 在 从 BMP 转换 成 PDF 
时 ， 页 面 顺序 调整 起 来 很 麻烦 。 

将 PDG 转换 成 BMP 等 图 像 格式 时 ， 允 许 使 用 多 线程 并 行 转换 ， 但 是 似乎 
稳定 性 会 随 之 下 降 ， 所 以 我 都 只 敢 用 单线 程 转换 。 

最 要 命 的 一 点 就 是 : 这 个 软件 在 转换 时 需要 占用 系统 前 贴 板 ,因此 如 果 在 转 
换 过 程 中 同时 用 Office 等 软件 干 活 〔( 没 办 法 ， 转 换 过 程 实 在 是 太 漫长 了 )， 则 复 
制 / 粘 贴 功能 将 失效 。 我 先是 在 工作 时 发 现 了 这 个 问题 ， 然 后 用 剪贴 板 监 视 软 件 
证 实 了 我 的 猜测 。 对 剪贴 板 的 占用 不 仅 影响 前 台 软 件 的 正常 使 用 ， 而 且 由 于 
Windows 本 身 对 系统 剪贴 板 的 限制 ， 在 转换 幅面 很 大 的 PDG 文件 时 会 转 不 了 。 

虽然 有 一 些 问题 ， 但 是 这 个 软件 支持 加 密 的 AAH 格式 等 〈 除 该 软件 外 ， 
coolman 还 开发 了 一 些 独 立 运行 的 PDG 解密 软件 )， 这 些 都 让 我 对 coolman 及 其 
作品 充满 敬意 。 
























































六 、Pdg2Pic 


在 发 现 coolman 的 pdg2bmp&jpg&tif&pdf&txt 会 占用 系统 剪贴 板 后 ， 我 
google 了 一 下 ， 还 真 碍 到 了 一 段 源 代码 ， 虽 然 我 不 可 能 看 到 
pdg2bmp&jpg&tif&pdf&txt 的 源 代码 ， 但 我 相信 它 的 核心 应 该 与 这 段 代 码 相似 。 
不 过 在 多 看 了 两 遍 这 段 代 码 后 ， 我 觉得 既然 已 经 用 了 Pdg2 控件 ， 为 什么 不 用 它 
提供 的 其 它 接口 获取 图 像 ， 干 嘛 非 要 用 系统 剪贴 板 ? 为 了 证 实 我 的 想法 的 可 行 
性 ， 我 花 了 点 时 间 写 了 Pdg2Pic 这 个 软件 ， 顺 便 对 我 在 使 用 
pdg2bmp&jpg&tif&pdf&txt 过 程 中 发 现 的 一 些 问题 做 了 改进 ， 包 括 : 




































































转换 过 程 不 占用 系统 剪贴 板 ， 不 影响 用 户 在 前 台 的 正常 工作 。 

可 以 自动 将 文件 按 封面 、 前 言 、 目 录 、 正 文 、 附 录 的 顺序 排列 ， 也 可 以 手动 
调整 文件 顺序 。 

提供 预览 功能 ， 在 转换 前 可 以 先 浏 览 PDG 图 像 。 

PDG 文件 的 扫描 DPI 自动 转 存 入 生成 的 TIFF、PNG 文件 ， 便 于 在 转换 成 






































PDF 文件 时 设置 页 面 大 小 。 

如 果 检 查 发 现 PDG 文件 是 纯正 的 JPG 文件 ,将 不 进行 任何 转换 ,直接 将 PDG 
复制 为 JPG; 黑白 PDG 文件 转 存 为 采用 CCITT G4 压缩 的 TIFF 文件 ， 以 获取 高 
压缩 比 ; 灰 度 /彩色 PDG 重新 压缩 为 有 损 的 PG 或 采用 JPEG 压缩 的 TIFF 文件 , 
或 无 损 压 缩 的 PNG 文件 , 或 PEG 2000 (有 损 / 无 损 )。 

由 于 我 没有 时 间 对 加 密 PDG 文件 进行 研究 ， 因 此 Pdg2Pic 不 像 
pdg2bmp&jpg&tif&pdf&txt 那样 文 持 众 多 加 密 PDG 格式 .如 果 在 Pdg2Pic 统计 的 
文件 类 型 中 出 现 加 密 格 式 ， 需 要 用 1xhkillerfull、 aahkiller 等 进行 解密 ， 然 后 再 用 
Pdg2Pic 进行 转换 。 如 果 您 原意 提供 PDG 文件 解密 算法 或 代码 ， 欢 迎 与 我 联系 。 




































































七 、 方 法 之 比较 与 展望 


上 面 介 绍 了 一 些 PDG 转 图 像 、PDF 的 方法 ， 说 句 实在 话 ， 我 认为 没有 一 种 
方法 是 完美 的 ， 多 多 少 少 都 有 点 毛病 。 而 且 在 我 看 来 ， 对 于 一 个 真正 的 PDG 转 
PDF 软件 ， 至 少 还 要 解决 以 下 问题 : 























从 PDG 目录 到 PDF 书签 (CBookmark) 的 转换 。 现 在 有 些 PDG 网 书 是 带 目 
录 的 ， 在 超星 浏览 器 中 打开 后 ， 左 侧 会 显示 树 状 结构 的 目录 ,便于 快速 定位 需要 
阅读 的 页 面 。 这 个 与 PDF 中 的 书签 很 类 似 ， 但 是 现在 似乎 还 没有 一 个 软件 能 够 
在 将 PDG 转换 成 PDF 时 ， 顺 手 将 目录 转换 成 书签 。 

将 图 书信 息 (bookinfo.dat) 插入 PDF 文件 ， 便 于 用 Adobe PDF Reader 的 捜 
索 (search) 功能 ， 在 一 大 堆 PDE 文件 中 找到 需要 的 书 。bookinfo.dat 其 实 是 一 
个 标准 TNI 文件 ， 用 文本 记录 了 书籍 的 书 名 、 作 者 等 信息 ， 如 果 作 为 一 个 文本 页 
插入 PDF 文件 尾 ， 无 疑 将 给 搜索 提供 一 些 必要 的 信息 。 

支持 透明 育 景 。 原始 的 黒白 PDG 文件 本 身 可 以 按 透 明 背 景色 显示 ， 因 此 在 
超星 浏览 器 中 可 以 根据 需要 对 背景 色 、 前 景色 进行 设置 , 便于 长 时 间 观 看 。 相 比 
之 下 ，PDF 的 白 底 黑 字 看 起 来 就 累 多 了 。 其 实 PDF Reader 本 身 是 支持 对 页 面 背 
景 进行 定义 的 ， 条 件 是 PDF 中 的 図像 必須 米 用 透明 背景 。 如果 図像 本 身 需 死 了 
一 定 要 用 白 底 ，PDF Reader 也 没有 办 法 。 
现在 最 后 一 个 问题 可 以 通过 FreePic2Pdf 1.01 版 解决 ， 第 二 个 问题 可 以 通过 
超星 章节 目录 提取 器 〈SSContent) 部 分 解决 ， 其 它 问题 解决 起 来 都 有 点 难度 ， 
不 知道 有 多 少 人 原意 去 做 ? 至 少 我 自己 是 没 打算 要 去 做 , 但 是 我 很 期 待 看 到 其 
高 手 能 够 解决 这 些 问题 ， 推 出 更 好 的 PDG 转 PDF 工具 。 

































































































































































八 : 题 外 话 : 图 像 转 PDF 








本 文 的 题目 叫 《PDG 转 图 像 、PDF 的 若干 方 法 》, 但 是 前 面 讨论 的 某 些 方法 ， 
如 截图 法 只 能 得 到 图 像 ， 不 能 直接 得 到 PDF 文件 ， 因 此 自然 还 需要 讨论 一 个 问 
题 : 怎样 将 图 像 转换 成 PDF 文件 ? 














别人 怎么 想 的 我 不 知道 ， 我 自己 认为 比较 好 的 转换 方法 有 两 种 : 





1、 用 Adobe Acrobat Professional 的 Create PDF from Multiple Files， 而 不 用 
它 的 虚拟 打印 机 





这 种 方法 的 优点 是 : 








如 果 在 转换 前 先 指定 黑白 图 像 用 无 损 JBIG2 压缩 ， 可 以 获取 最 高 压缩 比 。 

可 以 获得 经 过 线性 优化 的 PDF 文件 ， 这 种 文件 在 通过 网 络 浏览 时 可 以 边 浏 
览 边 下 载 ， 因 此 也 被 称 为 Fast Web View 文件 。 但 是 对 于 只 在 本 地 阅读 的 PDF 文 
件 来 说 ， 我 认为 这 种 优化 只 会 增加 文件 长 度 ， 不 会 节省 实际 的 打开 时 间 。 

这 种 方法 的 缺点 是 : 


























对 于 灰 度 /彩色 图 像 ， 可 能 会 因为 重新 采样 压缩 而 造成 图 像 质量 衰减 或 文件 
膨胀 。 这 方面 的 讨论 参见 我 写 的 《图 像 转 PDF 的 问题 、 方 法 及 题 外 话 》。 

如 果 一 次 需要 处 理 几 本 书 ， 操 作 起 来 有 点 麻烦 。 

如 果 图 像 大 小 不 一 ， 转 换 出 来 的 页 面 大 小 也 不 一 致 ， 看 起 来 有 点 心烦 。 

至 尽 为 止 ， 我 还 没有 找到 如 何 设置 ， 才 能 在 转换 黑白 图 像 时 ， 能 够 将 背景 设 
置 为 透明 。 如 果 您 知道 ， 还 请 不 音 赐 教 。 

2、 用 FreePic2Pdf 






































这 种 方法 的 优点 是 : 





按照 缺 省 设置 ， 黑 白 图 像 转换 成 CCITT G4 数据 流 ，JPEG/JPEG 2000 数据 
流 直 接 租 入 PDF 文件 , 不 会 因为 重新 采样 压缩 而 造成 图 像 质量 衰减 或 文件 膨胀 。 
便于 批量 处 理 ， 包括 设置 页 面 大 小 、 页 边 距 ， 在 开始 转换 前 调整 文件 顺序 也 
很 方便 。 

从 1.01 版 开始 ， 对 于 黑白 图 像 ， 可 以 自动 转换 成 透明 背景 色 。 由 于 有 了 这 
个 功能 ， 我 甚至 打算 在 有 了 好 的 PDF 转 图 像 软件 后 ， 把 以 前 收集 的 一 些 扫描 版 
PDF 还 原 成 图 像 , 再 用 它 转 成 PDF。 原因 无 它 ， 白 底 黑 字 的 PDF 实在 是 看 怕 了 。 

最 重要 的 一 点 : 它 是 免费 的 绿色 软件 ， 个 人 使 用 不 存在 法 律 后 患 。 

这 种 方法 的 缺点 是 : 



















































































由 于 缺乏 相关 开源 项 目的 支持 , 因此 不 支持 JBIG2 压缩 ,只 能 采用 CCITT G4 
压缩 黑白 图 像 ， 转 出 来 的 PDF 文件 可能 会 比 Acrobat 用 JBIG2 转 出 来 的 大 一 点 。 
如 果 您 手 上 有 没有 法 律 问题 的 JBIG2 压缩 源 代码 ， 欢 迎 与 我 联系 。 

没有 线性 优化 功能 。 如 果 您 制作 的 PDF 只 在 本 地 阅读 ,不 打算 通过 下 在线 
阅读 ， 这 个 缺点 将 变 成 优点 。 

总 之 ， 现 在 也 没有 十 全 十 美的 图 像 转 PDF 软件 ， 也 许 这 样 的 方法 会 是 更 好 
的 选择 : 转换 还 是 用 支持 JBIG2 和 JPEG 2000 的 Acrobat 转 , 但 是 做 一 个 小 程序 ， 
将 它 转 出 来 的 PDF 文件 的 黑白 图 像 的 背景 改 为 透明 。 由 于 是 单纯 的 字符 替换 ， 
所 以 软件 很 好 写 ， 并 且 不 需要 其 它 第 三 方 代 人 码 或 控件 的 支持 。 
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DPI 是 Dot Per Inch 的 缩写 ， 字面 意思 就 是 “每 英寸 点 数 ”， 即 在 一 英寸 的 长 
度 上 , 设备 能 够 显示 、 打 印 、 扫 描 、 拍 摄 ……… 多 少 个 点 ， 其 基本 计算 公式 为 : 



































DPI 二 象 素 点 数 二 英制 长 度 ( 点 /英寸 ) 








习惯 上 ,设备 的 象 素 点 阵 坐 标 系 称 为 物理 坐标 系 ,其 它 坐 标 系 称 为 逻辑 坐标 
系 。 因 此 本 文 把 点 阵 图 像 的 象 素 尺 寸 称 为 物理 尺寸 ， 英 制 /公制 尺寸 称 为 逻辑 尺 
寸 : 而 DPI 则 可 以 看 作 是 在 物理 尺寸 和 好 辑 尺寸 之 间 进 行 转换 的 桥梁 : 



































。 在 生成 扫描、 拍摄 〉 图 像 时 ， 图 像 尺 寸 和 设备 DPI 决定 了 最 终 图像 的 
点 阵 尺 寸 。 如 一 张 宽度 为 5 英寸 的 图 片 ， 在 300 DPI 的 扫描 仪 上 扫描 ， 最 终点 阵 
宽度 =$X300 王 1500 象 素 。 

“在 输出 〈 显 示 、 打 印 ) 图 像 时 ， 图 像 象 素 尺 寸 和 设备 DPI 决定 了 最 终 图 
像 的 尺寸 。 如 点 阵 宽度 为 1500 象 素 的 図像 , 在 600 DPI 的 打印 机 上 输出 ， 最 终 
図像 害 度 三 1500 エ 600 三 2.5 英寸 。 
























































从 上 面 举 的 例子 可 以 看 出 ， 当 输入 、 输 出 设备 的 DPI 不 一 致 《 这 种 情况 很 
常见 ) 时 ， 可 能 会 导致 输出 图 像 大 小 与 原始 输入 图 像 大 小 不 一 致 《上 面 例子 中 差 
了 一 倍 )。 为 了 解决 这 种 不 一 致 ， 让 图 像 在 所 有 输出 设备 上 看 起 来 都 一 样 大 小 ， 
通常 作法 是 先 按 输入 设备 的 DPI 将 点 阵 宽度 换算 回 图 像 的 原始 逻辑 宽度 〈 英 制 、 
公制 宽度 )， 再 按 输出 设备 的 DPI 将 逻辑 宽度 换算 成 输出 点 阵 宽 度 。 















































还 是 以 上 面 举 的 例子 来 说 ，5 英寸 宽 的 图 像 在 300 DPI 扫描 仪 上 扫描 后 点 阵 
宽度 为 1500 象 素 ， 为 了 在 600 DPI 的 打印 机 上 打印 这 张 图 片 时 还 能 打印 成 $ 英 
寸 宽 ， 就 需要 先 对 这 张 图 片 进行 放大 ,在 将 它 放 大 一 倍 ， 宽 度 达到 3000 象 素 后 ， 
在 600 DPI 的 设备 上 打印 宽度 =3000 二 600=S 英寸 。 





























打印 时 的 这 种 缩放 ， 当 然 会 对 最 终 打 印 出 来 的 图 像 造 成 影响 。 这 就 是 为 什么 
在 用 虚拟 打印 机 将 图 像 文 件 打 印 成 PDF 或 DjVu 时 ， 最 终 文 件 大 小 、 质 量 往往 会 
与 虚拟 打印 机 DPI 有 关 的 原因 。 











当然 除了 使 用 英制 单位 外 ，DPI 也 可 能 使 用 公制 单位 ， 这 时 它 的 单位 通常 是 
“点 / 米 ”， 即 1 米 长 度 上 有 多 少 个 象 素 点 。 从 习惯 上 考虑 ， 本 文 对 用 公制 单位 表 
示 的 DPI 还 是 称 为 DPI， 而 不 是 DPM (Dot Per Meter)。 











二 、 图 像 文 件 中 的 DPI 


由 于 很 多 图 像 浏 览 、 处 理 、 印 刷 软件 都 会 用 输入 设备 的 DPI 计算 原始 图 像 
逻辑 尺寸 , 所 以 大 多 数 常 见 图 像 格 式 都 允许 在 文件 结构 中 记录 图 像 生成 时 的 设备 
DPI: 




















。 BMP 格式 : 在 BITMAPINFOHEADER 结构 体 的 biXPelsPerMeter、 
biYPelsPerMeter 字段 中 定义 ， 从 字面 上 看 采用 的 是 公制 单位 。 

・PNG 格式 : 在 png_info 结构 体 的 x pixels_per_unit、y_pixels_per_unit 字 
段 定 义 ， 单 位 是 公制 还 是 英制 由 phys_unit_type 描述 

・TIFF 格式 : 通过 TIFFTAG XRESOLUTION、TIFFTAG_YRESOLUTION 
这 两 个 tag 定义 ， 单 位 通过 TIFFTAG_RESOLUTIONUNIT 定义 。 

・JPG 格式 : JEIF 格式 的 在 APPO 段 (FF E0) 的 X density、Y_density 字段 
定义 , 单位 由 density_unit 描述 ; EXIF 格式 的 在 Xresolution、 Yresolution 中 定义 ， 
单位 由 ResolutionUnit 描述 。 


































































































(UM RA 


个 共同 特点 














、 支 持 公制 和 英制 单位 。 这 大 概 就 是 所 谓 的 “国际 化 ”支持 。 
の の 置 不 同 的 DPI。 这 是 由 设备 特性 决定 的 : 由 于 物理 限 
制 ， 某 些 扫描 、 印 刷 设备 在 两 个 方向 上 的 运动 精度 可 能 不 同 , DPI 当然 也 不 一 样 ， 
如 我 磁 到 过 一 台 印 刷 设备 的 DPI 就 是 600X300。 在 libtiff 提供 的 测试 图 像 中 ， 
有 两 张 CCITT 编码 的 Fax 图 像 的 x、y 向 DPI 也 不 同 ， 显 示 时 如 果 不 注 意 ， 就 可 
能 显示 出 变形 〈 园 变 成 了 扁 顶 圆 ) 的 图 像 。 





















































三 、PDG 文件 中 的 DPI 








在 目前 友 布 的 V1、V2 版 PDG 文件 结构 中 ， 并 没有 任何 关于 DPI 的 描述 ， 
那么 超星 浏览 器 所 带 的 pdg2 控件 的 GetDpi 方法 返回 的 DPI 又 是 怎么 回 事 ? 























其 实说 穿 了 很 简单 : GetDpi 返回 的 DPI 值 是 动态 算出 来 的 如 果 图 像 宽 
度 大 于 1200 象 素 ， 则 认为 是 300 DPI; 否则 是 150 DPI。 详 见 网 上 读书 园地 论坛 
(http://www.readfree.netbbs/index.php ) 里 cheming 先生 的 相关 分 析 文 章 。 














对 于 通常 的 书籍 页 面 来 说 , 扫描 图 像 宽度 达到 1200 象 素 以 上 已 经 足够 清晰 ， 
所 以 通常 PDG 收藏 者 (这么 说 是 不 是 有 点 无 聊 ? ^ ^) 也 用 DPI 值 作 为 区 别 清晰 
版 、 快 速 版 的 标准 : 如果 Pdg2Pic 报告 300 DPI， 则 认为 是 清晰 版 ， 否 则 认为 是 
快速 版 。 












































大 多 数 情况 下 ， 这 种 判别 标准 应 该 说 是 准确 的 ， 不 过 偶尔 也 有 失手 的 时 候 : 
有 时 图 像 实在 太 大 ， 即 使 已 经 按 超星 快速 版 的 质量 标准 进行 了 压 红 ( 长 、 宽 各 侈 
掉 一 半 ), 但 宽度 还 是 超过 1200 象 素 , 这 时 就 会 被 误 判 为 清晰 版 。 不 过 这 种 情况 
毕 竞 少见 ， 我 也 只 在 读书 园地 见 过 一 页 。 
































快速 版 PDG 的 数据 流 格式 通常 是 DjVu, 面 Djvu 格式 要求 在 INFO 段 中 填 
号 DPI 值 。 从 实际 解 出 来 的 数据 流 看 ，PDG 中 的 DjVu 有 填 150 DPI 的 ， 也 有 填 
100 DPI 的 。 至 于 100 DPI 是 实际 扫 瞄 时 的 DPI， 还 是 超星 程序 员 偷 懒 使 用 了 
djvulibre 的 缺 省 值 ， 那 就 不 知道 了 。 
































从 目前 了 解 的 情况 看 ，PDG 文件 的 DPI 对 显示 没有 任何 影响 ， 超 星 浏 览 器 
显示 时 都 是 按照 图 像 实际 象 素 尺 寸 进行 计算 。 不 过 Pdg2Pic 在 将 PDG 文件 转换 
成 图 像 文件 时 ， 会 按照 通常 图 像 处 理 软件 的 习惯 ， 将 计算 出 来 的 PDG 文件 DPI 
(150/300) 写 入 转换 出 来 的 图 像 文 件 。 从 目前 的 情况 看 ， 这 种 做 法 似乎 给 某 些 
原先 习惯 使 用 “打印 大 法 ” 现在 转 为 使 用 FreePic2Pdf 的 人 造成 了 困扰 ， 详 见 下 
一 节 说 明 。 





























四 、PDF 文件 中 的 DPI 

PDF 文件 中 同样 没有 任何 地 方 存储 DPI， 但 是 所 有 PDF 生成 、 处 理 软件 都 
绕 不 开 DPI: PDF 文件 格式 规范 规定 ,在 描述 页 面 及 页 面 中 的 对 象 时 ， 所 有 表示 
大 小 、 位 置 的 数值 必须 折算 成 “用 户 单位 (User Unit)”。 用 户 单位 的 缺 省 值 为 
1772 英寸 , 即 PDF 文件 的 页 面 DPI 为 72。 当然 这 个 值 也 可 以 在 文件 中 加 以 更 改 ， 
不 过 很 少 有 人 这 么 干 。 

以 一 幅 宽 度 为 1500 象 素 , 扫描 DPI 为 300 的 图 像 为 例 , 如 果 要 在 PDF 中 看 
起 来 的 大 小 与 被 扫描 的 原始 图 像 大 小 一 样 (5 英寸 )， 则 在 PDF 页 面 描述 中 ， 必 
须 定义 这 幅 图 像 的 宽度 二 1500 二 300X72==360 (用 户 单位 )。 

而 如 果 要 使 图 像 上 每 个 象 素 点 用 屏幕 上 一 个 象 素 点 显示 ， 则 应 该 在 PDF 页 
面 描述 中 ， 定 义 这 幅 图 像 的 宽度 二 1500 二 96X72= 二 1125 (用 户 单位 )。 其 中 96 是 
屏幕 的 DPI 值 。 

理论 上 说 , 对 于 图 像 对 象 ， PDF 允许 将 图 像 的 物理 表示 与 逻辑 表示 分 开 ( 参 
见 我 写 的 《图 像 转 PDF 的 问题 、 方 法 及 题 外 话 》)。 还 是 以 上 面 这 幅 图 像 为 例 ， 
PDF 制作 软件 可 以 将 原始 图 像 按 照 1500 象 素 宽度 存储 为 图 像 对 象 ， 然 后 在 页 面 
中 对 这 个 图 像 对 象 进行 引用 , 并 按 用 户 单位 定义 这 个 图 像 在 页 面 上 的 位 置 、 大 小 。 
在 这 种 情况 下 , 改变 显示 时 的 位 置 、 大 小 , 并 不 会 对 原始 图 像 数 据 造 成 任何 影响 。 
FreePic2Pdf 就 是 这 么 干 的 , 所 以 在 FreePic2Pdf 中 改变 DPI, 并 不 会 改变 最 终 PDF 






























































































































































文件 的 大 小 ， 因 为 仅仅 是 图 像 的 位 置 、 大 小 被 重新 计算 ， 图 像 数据 流 不 会 变 。 

但 是 对 基于 虚拟 打印 原理 的 转换 软件 来 说 , 就 是 另外 一 回 事 了 , 参见 前 面 “ 基 
本 概念 ”部 分 。 在 这 些 软件 中 ， 改 变 目 标 DPI 值 〈 虚 拟 打印 机 的 DPI)， 将 对 最 
终 PDF 的 文件 大 小 、 清 晰 度 产 生 影 响 ， 因 为 软件 会 按照 虚拟 DPI 重新 缩放 图 像 
本 号。 这 也 是 我 为 什么 一 直 对 “打印 大 法 ”比较 排斥 的 原因 : 原始 图 像 可 能 会 在 
打印 过 程 中 被 重新 采样 。 

另外 对 于 PDF 中 的 黑白 图 像 来 说 ， 如 果 选 择 JBig2( 从 PDF 1.4, 即 Acrobat 
5.0 开始 文 持 ) 有 损 压 缩 ， 则 结果 可 能 受 DPI 设置 影响 ， 也 可 能 不 受 ， 由 具体 的 
符号 匹配 (Symbol Match ) 代码 决定 。《PDF Reference fifth edition》 第 3.3.6 节 对 
JBig2 压缩 的 原理 及 作用 描述 如 下 : 

The JBIG2 encoder builds a table of unique Symbol bitmaps found in the image, 
and other Symbols found later in the image are matched against the table. Matching 
Symbols are replaced by an index into the table, and symbols that fail to match are 
added to the table. The table itself is compressed using other means. This method 
results in high compression ratios for documents in which the same symbol is 
repeated often, as 1s typlcal for images created by scanning text pages. It also results 
in high compresslon of white space in the image, which does not need to be encoded 
because it contalns no Symbols. 

这 段 话 对 JBig2 进行 了 专家 级 概括 。 而 在 判断 符号 是 否 匹 配 时 ， 某 些 软件 会 
吉 合 DPI 进行 判断 (参见 后 面 “DjVu 文件 中 的 DPI” 中 对 有 损 JB2 的 描述 , JBig2 
1 JB2 不 仅 名 字 像 ， 原 理 也 一 样 )。 但 是 在 FreePic2Pdf 中 没有 做 这 种 结合 ， 所 以 
使 改变 DPI， 对 FreePic2Pdf 中 的 有 损 JBig2 压缩 结果 也 没有 什么 影响 。 
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虽然 如 前 所 述 ， 在 FreePic2Pdf 里 改变 DPI， 不 会 改变 最 终 图 像 数 据 流 的 长 
度 , 但 是 由 于 PDF 显示 软件 本 身 的 原因 ， 在 FreePic2Pdf 里 改变 DPI 后 ， 还 是 可 
能 对 最 终 显示 效果 造成 影响 。 例 如 某 清 晰 版 图 像 宽度 为 1634, 按照 缺 省 的 96 DPI 
转换 ， 在 1024X768 的 屏幕 上 显示 时 选择 “适合 宽度 ” 在 工具 条 上 显示 实际 缩 
放 比 例 为 59%， 即 “缩小 ”而 如 果 按 照 300 DPI 转换 ， 显 示 比 例 将 为 185%, 即 
“放大 ”。 某 些 软件 在 显示 PDF 时 ， 会 先 将 图 像 解 码 ， 然 后 缩放 到 逻辑 尺寸 ， 再 
按照 用 户 选 择 的 缩放 比例 缩放 成 显示 尺寸 。 对 于 这 种 软件 ， 最 终 “ 缩 小 ”的 效果 
要 好 于 最 终 “ 放 大 ”的 效果 。 当 然 最 新 的 显示 软件 都 没 这 么 笨 了 ， 一 般 不 经 过 中 
间 环 节 ， 直 接 将 图 像 从 原始 大 小 缩放 到 最 终 大 小 ， 这 时 DPI 的 作用 就 没 这 么 明 
显 。 

正 因为 这 个 原因 ，FreePic2Pdf 里 缺 省 DPI 是 屏幕 DPI 一 一 96 DPI, 以 免 在 某 
些 软件 上 显示 时 造成 质量 下 降 。 

WinDjView 也 有 类 似 的 毛病 ， 所 以 在 FreePic2Pdf 之 后 开发 的 DjVuToy 里 ， 
我 本 不 想 再 让 用 户 自己 设置 DPI 的 ， 但 总 有 那么 几 个 人 认为 不 能 自己 设置 就 会 
浑身 不 舒服 ， 所 以 最 终 还 是 把 这 个 功能 开放 了 。 












































五 、DjVu 文件 中 的 DPI 

在 文件 存储 方面 ， 按 照 Lizardtech 公司 出版 的 《Lizardtech DjVu Reference 
DjVu v3》 第 8.3.11 节 规 定 ，DjVu 文件 在 INFO 段 中 定义 DPI， 单 位 为 英制 。 与 
其 他 常见 图 像 格 式 不 同 ，DjVu 中 没有 区 别 x、y 方向 DPI， 即 认为 两 个 方向 的 
DPI 是 一 样 的 。 在 将 x、y 方向 DPI 不 同 的 图 像 转换 成 DjVu 时 ， 必 须 对 此 加 以 

















注意 ， 以 免 转 完 后 变形 。 

在 文件 转换 方面 ， 如 果 按 照 djvulibre 源 代码 实现 ，DPI 仅 对 采用 有 损 JB2 
压缩 的 前 景 蒙 板 层 有 影响 ， 对 无 损 JB2 压缩 的 前 景 蒙 板 层 ， 及 前 景 层 、 背 景 层 无 
影响 (对 DjVu 各 层 的 说 明 见 我 写 的 《说 “ 层 今 ， 聘 2 原理 见 前 面 “PDF 文件 中 
的 DPI”): 

“在 JB2 有 损 压 缩 时 ， 一般 要 在 开始 搜索 符号 (字符 ) 前 ， 先 对 版 面 进行 清 
洁 (clean)， 即 将 细小 的 孤立 点 当 作 噪声 点 去 除 。 具 体 多 大 的 点 算 “ 细 小 ” 则 
由 DPI 决定 。djvulibre 中 cjb2.cpp 的 相关 计算 代码 为 : 

dpi = MAX(200, MIN(900, dpi)): 

largesize = MIN( 500, MAX(64, dpi)): 

smallsize = MAX(2, dpi/150); 

tinysize = MAX(0, dpi*dpi/20000 - 1): 

即 在 计算 时 ， 先 对 用 户 指定 的 DPI 值 有 效 性 进行 检查 ， 小 于 200 DPI 的 一 律 
算 200 DPI， 大 于 900 DPI 的 则 算 900 DPI; largesize 是 符号 最 大 尺寸 ， 长 、 宽 大 
于 等 于 此 值 的 连通 域 均 会 被 拆 分 ， 以 避免 符号 粘连 ;smallsize 是 符号 最 小 尺寸 ， 
长 、 宽 小 于 等 于 此 值 的 连通 域 均 将 视 需 要 合并 , 以 避免 一 个 字母 被 拆 成 两 半 (如 
字母 1 上 面 的 点 和 下 面 的 竖 线 通常 是 不 连通 的 ); tinysize 是 噪声 点 尺寸 ， 长 、 宽 
小 于 等 于 此 值 的 孤立 连通 域 可 能 会 被 当 作 噪 声 点 加 以 清除 。 

简单 来 说 ， 对 于 同一 个 原始 图 像 ， 如 果 DPI 小 于 等 于 200， 只 有 长 、 宽 为 1 
个 象 素 的 孤立 点 会 被 clean 掉 ; 在 DPI 为 300 时 ， 长 、 宽 小 于 等 于 3 个 象 素 的 孤 
立 区 域 会 被 clean 掉 。 

・ 如 果 JB2 选项 选 的 是 “去 斑 〈clean)”， 通 常 在 完成 上 述 去 斑 过 程 后 ， 即 
按 无 损 压 缩 处 理 ; 如 果 选 择 的 是 “有 损 (lossy)” 则 在 去 斑 后 ， 再 进行 符号 匹配 ， 
并 对 “相同 ”( 其 实 是 “相似 ”) 的 符号 进行 合并 。 至 于 什么 样 的 符号 算 “ 相 同 ”， 
则 与 DPI、 有 损 级 别 (1osslevel) 有 关 : DPI 和 losslevel 值 越 大 ， 人 允许 两 个 “ 相 
同 ” 符 号 之 间 的 差异 越 大 ， 即 越 容易 将 两 个 有 差异 的 符号 判别 为 “相同 ”。 在 
djvulibre 中 , losslevel 的 合法 值 是 0 一 200: 0 即 “ 无 损 ”，1 即 “ 去 斑 ” 通常 “有 
损 ” 时 losslevel 二 100。 



















































































































































































djvulibre 的 符号 匹配 算法 是 外 国人 写 的 ， 对 字母 、 数 字 来 说 ， 有 损 JB2 压缩 
能 在 较 小 的 风险 代价 下 , 获得 较 高 压缩 比 。 但 是 对 中 文 来 说 , 故事 就 没 这 么 美好 : 
很 多 字 本 来 就 很 像 (如 “已 ”和 “已 和 “人 ”和 “入 入 “ 面 ” 和 “而 ”等 )， 扫 
瞄 质 量 如 果 差 点 (笔画 缺 腹 膊 少 腿 )， 再 被 clean 过 程 去 掉 点 孤立 的 笔画 或 点 ， 
在 有 损 压缩 时 就 可 能 将 相似 字 判 别 成 相同 字 。 在 读书 园地 BBS 上 已 经 有 人 贴 过 
这 样 的 实例 : 采用 CCTTT 无 损 压 缩 的 02H 的 PDG 文件 上 没有 错别字 ， 但 是 同 
一 个 文件 的 05H 版 (DjVu) 就 出 现 错别字 (将 “ 面 ” 和 “而 ” 混 了 )。 

当然 上 面 说 的 是 djvulibre 的 实现 ， 超 星 用 它 是 确定 无 疑 的 ， 其 他 DjVu 制作 
软件 ， 尤 其 是 各 大 商业 DjVu 制作 软件 是 否 也 这 样 处 理 就 不 知道 了 。 

在 文件 显示 方面 ， 在 WinDjView 中 ， 按 照 不 同 的 显示 比例 ， 决 定 是 否 按照 
DPI 折算 图 像 宽度 : 

。 如 果 选 择 “ 实 际 尺 寸 (Actual Size)”， 则 按照 DjVu 图 像 的 实际 象 素 尺 寸 
显示 ， 即 图 像 上 的 一 个 象 素 点 占用 屏幕 上 的 一 个 实际 象 素 点 。 

“选择 “适合 宽度 〈Fit Width) 和 “适合 高 度 (Fit Height)”“ 适 合 页 面 (Fit 
Page)”“ 拉 伸 〈Stretch)” 时 ， 与 选择 “实际 尺寸 ”一 样 ，WinDjView 根本 就 不 




























































































管 DjVu 文件 里 DPI 是 怎么 设置 的 , 直接 将 象 素 点 阵 缩 放 到 窗口 宽度 、 高 度 显 示 。 

0 
然后 按照 屏幕 DPI， 折 算 成 屏幕 点 阵 尺 寸 显 示 出 来 。 

。 选择 其 他 百分比 时 ， 同 样 是 先 将 图 像 点 阵 尺 寸 按 DPI 折算 成 英寸 ， 然 后 
按 比 例 缩放 ， 再 按照 屏幕 DPI， 折 算 成 屏幕 尺寸 显示 出 来 。 所 以 有 些 高 DPI 的 图 
像 , 放大 后 看 起 来 效果 会 有 点 差 。 这 有 点 类 似 前 面 说 的 某 些 PDF 显示 软件 。 

正 因 为 以 上 原因 ， 我 自己 在 看 DjVu 文件 时 ， 尽 量 不 选 按 百 分 比 显示 ， 都 是 
“Fit Width”、 “Fit Page” 或 “Actual Size”。 

在 将 PDG 转换 成 DiVu 时 ，DjVuToy 直接 对 图 像 数 据 流 进行 操作 ， 没 有 任 
多 
变 了 最 终 DjVu 文件 的 一 个 字段 值 而 已 ， 不 会 造成 文件 大 小 的 变化 。 

对 于 其 他 基于 虚拟 打印 原理 实现 的 DjVu 转换 工具 ; 与 PDF 虚拟 打印 一 样 
DPI 是 个 绕 不 过 去 的 坎 : 打印 机 需要 按照 DPI， 计 算 最 终 图 像 大 小 。 为 了 与 这 个 
最 终 尺 寸 相 匹配 ， 需 要 对 图 像 进行 缩放 〈 通 常 是 放大 ， 因 为 打印 机 分 辩 率 比 屏 幕 

而 且 会 改变 最 终 图像 质 量 的 原因 之 一 。 

而 在 DjVuToy 的 “文件 宽度 ”功能 里 ， 则 通过 更 改 每 一 页 INFO 段 中 的 DPI 
值 ， 保 证 在 WinDjView 中 按照 100 多 显示 时 ， 所 有 页 面 宽 度 一 致 。 例 如 想 将 页 面 
宽度 统一 为 5 英寸 则 先 找 出 各 页 的 象 素 宽度 ， 然 后 设置 每 一 页 的 DPI 二 该 页 象 
素 宽 度 二 5 即 可 。 这 个 也 不 需要 更 改 原始 图 像 数 据 。 当 然 由 于 DjVu 的 DPI 必须 
是 整数 ， 四 舍 五 入 后 显示 宽度 可 能 会 有 一 点 微小 的 差异 ， 影 响 不 大 。 








































































































-> 




































































http://www.readfree.net/bbs/read.php7thd=186451 六 keyword= 


作者 : cheming 





PDG 文 件 的 DPI 








者 了 ー ト PDG2.DLL, 知道 DPI 信息 不 是 保存 在 PDG 中 ， 而 是 计算 出 来 的 


.text:1001E220; __int32 _ cdeclTT_Pdg01_ dpi_get(void *pThis) 


.text:1001E220 IT_Pdg01_dpi_get proc near ; DATA 
XREF: rdata:100D4E3C ト o 

.text:1001E220 ; rdata:100D54C4 ト o 

.text:1001E220 

.text:1001E220 pThis = dword ptr 4 

.text:1001E220 arg_4 = dword ptr 8 

.text:1001E220 

.text:1001E220 mov eax, [esp+pThis] 

.text:1001EB224 lea ecx, [eax+OCOh] 

.text:1001E22A call GetDPI 

.text:1001E22F mov ecx, [espTarg_4] 

.text:1001B233 mov [ecx], eax 

.text:1001B23S5 XOT eax, eax 

.text: 1001E237 retn 8 

.text:1001E237 IT_Pdg01_ dpi_get endp 

.text:10011B50 GetDPI proc near ; CODE XREF: 
IT Pdg01 dpi_getrAFp 

.text:10011B50 mov edx, [ecx+2194h] 

.text:10011BS6 XOT eax, eax 

.text:10011BSS cmp edx, 1200 

.text:10011BSE setle al 

.text:10011B61 dec eax 

.text:10011B62 and eax, 150 

.text:10011B67 add eax, 150 

.text:10011B6C retn 

.text:10011B6C GetDPI endp 

根据 上 述 程序 可 知 ; 


pdgWidth>1200 : pdgDPI = 300 
else: pdgDPI = 150 
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部 分 ， 最 多 算 备 筷 录 ， 如 果 读 的 时 候 觉得 无 头 无 尾 





结构 中 并 没有 层 的 描述 字段 ， 因 此 也 没有 分 层 不 分 层 























的 说 法 : 如 果 书 籍 页 面 上 既 有 文字 又 有 插图 , 则 连 文 字 带 插图 存储 成 一 个 大 JPG。 


如果 指 
不 适合 

















i 图 在 页 面 上 只 占用 很 少 一 点 面积 ， 这 术 








存储 黑白 文字 


。 面 如果 





的 存储 方式 当然 很 不 经 济 : JPG 并 
将 文字 与 插图 剥离 开 , 文字 用 超星 惯用 的 CCITT 


年 











压缩 存储 ， 其 压缩 比 要 比 JPG 高 很 多 ， 显 示 效 果 也 会 好 很 多 。 


件 头 中 除 主 文字 层 的 宽 、 高 、 数 据 长 度 等 ， 
图 的 描述 信息 ， 


Sa 


扣 


顺序 编列 各 扣 


这 种 文字 与 插图 相 区 别 久 









































定义， 从 V2 版 PDG 文件 结构 开始 出 现 : 


包 





在 主 文 
还 定义 了 插图 的 个 数 ; 在 主 文件 头 后 
括 : 插图 左上 角 点 位 置 、 插 图 高 度 、 插 图 宽度 、 

















图 数据 起 始 位 置 ( 相 对 文件 起 始 位 置 的 偏 移 量 )、 插 图 数据 长 度 ( 








字 节 数 ) 等 。 





浏览 器 在 绘制 这 种 PDG 时 ， 先 读 取 文 字 层 数据 〈CCITT 或 黑白 DjVu 数据 














流 )， 在 背景 上 画 出 文字 ， 然 后 逐个 读 取 插 图 数据 ， 读 一 ?1 
依次 为 背景 〈 超 星人 允许 设置 背景 图 案 或 背景 颜色 ) 层 、 文 字 层 、 第 一 张 插 图 、 
二 张 插 图 、……… 、 第 n 张 插图 。 


或 DjVu 数 据 流 封 装 成一 
的 “ 榴 套 PDG”: 在 一 个 PDG 文件 里 ， 











PDG 所 有 插图 均 为 矩形 , 数据 流 格 式 为 24 位 JPG 或 DjVu, 偶尔 也 会 将 JPG 





都 是 一 个 插图 。 








理论 上 PDG 文件 的 扣 
的 車 善 部 分 。 














二 、PDF 中 的 层 


ゝ レ 





PDF 中 的 层 和 有 


微 复 杂 一 些 ， 











个 完整 的 PDG 文件 作为 插图 数据 ， 这 样 


图 之 间 人 允许 出 现 
但 是 在 实际 的 PDG 文件 中 ， 尚 未 见 到 
了 很 好 的 方法 ， 能 够 保证 指 





就 产生 了 所 请 
还 包含 一 个 或 几 个 子 PDG, 每 个 子 PDG 
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.9 











有 车 时 上 层 插 
县 的 情况 ， 











皇 图 





























图 切割 后 的 总 面积 最 小 ， 没有 任何 浪费 。 





我 将 其 区 分 为 “狭义 层 ” 和 “广义 层 ”。 


所 谓 “ 狭 义 层 ” 指 的 是 在 Adobe 出 版 发 行 的 《PDF Reference fifth editon》 
第 4.10 节 中 定义 的 Optional Content〈 可 选 内 容 )。 我 称呼 它 为 “狭义 层 ” 起因 
为 在 Adobe Acrobat 7.0 的 界面 、 帮 助 里 ， 都 用 “ 层 〈layer)” 这 个 词汇 来 明确 称 
呼 它 。 后 面 叙 述 的 “广义 层 ” 就 没有 享受 这 样 的 待遇 。 





























用 Optional Content 定义 的 层 ， 类 似 于 Photoshop 中 “ 层 ” 的 概念 ， 事 实 上 
Acrobat 界面 左 侧 “ 层 ” 窗 口 ( 排 在 “书签 ”窗口 下 面 ) 的 操作 , 也 和 Photoshop 
里 的 层 操作 差不多 : 点 击 眼睛 图 标 ， 即 可 显示 和 隐藏 指定 的 层 。 在 同一 个 层 上 可 
以 放置 多 个 对 象 (文本 、 图 像 、 按 钮 等 );， 隐 藏 、 显 示 某 层 时 ， 该 层 所 有 对 象 一 
起 隐藏 、 显 示 。 判 断 一 个 PDF 文件 是 否 采 用 Optional Content 来 定义 层 的 方法 也 
很 简单 : 用 Acrobat 打开 PDF 文件 ， 如 果 点 开 “ 层 ”窗口 能 够 看 到 内 容 ， 则 该 
PDF 肯定 包含 屋 ， 否 则 不 包含 。 

我 的 同事 在 设计 PDF 表单 时 ， 喜 欢 在 表单 里 用 层 来 定义 一 些 装 饰 性 或 提示 
性 的 元 素 ， 这 些 元 素 在 打印 时 会 隐藏 。 不 过 这 几 个 家 伙 以 前 是 做 网 页 的 ， 所 以 我 
一 直 怀 疑 他 们 是 在 HTML 里 用 DIV 用 惯 了 ， 转 到 PDF 来 还 是 改 不 了 老 习 惯 :)， 
过 一 段 时 间 自 然 会 改 用 更 简单 的 方法 。 我 也 曾 在 国学 数 典 BBS 上 見 到 有 人 用 
Adobe InDesign, 做 了 一 本 用 Optional Content 定义 的 多 层 PDF: 一 层 是 扫描 图 像 
层 , 一 层 是 文字 层 , 还 有 一 个 附加 层 上 放置 了 层 选 择 按钮 : 点 击 文字 层 选择 按钮 ， 
则 隐藏 图 像 层 、 显 示 文 字 层 ; 点 击 图 像 层 按钮 则 有 反之。 不 过 可 能 这 种 书籍 制作 要 
求实 在 太 高 ， 用 处 又 不 大 ， 我 到 现在 也 只 见 过 这 么 一 本 。 

通常 大 家 说 的 “ 双 层 PDF” 其实 和 用 Optional Content 定义 的 层 一 点 关系 都 
没有 , 所 以 用 Acrobat 打开 以 后 , 点 “ 层 ” 窗 口 什么 也 看 不 到 , 即 这 种 “ 双 层 PDF” 
的 “ 层 ” 其 实 不 是 Acrobat 所 认可 的 “ 层 ” 只 不 过 大 家 都 这 么 说 ， 而 且 从 逻辑 
上 来 说 确实 有 点 “ 层 ” 的 意思 ， 所 以 我 管 这 个 叫 “ 广 义 层 ”。 

这 种 广义 的 “ 双 层 PDF”， 底 层 是 扫描 图 像 层 ， 上 层 是 从 扫描 图 像 OCR 出 
来 的 文字 层 ， 只 不 过 文字 设置 为 透明 (在 Foxit PDF Editor 的 “文本 属性 ”页 中 ， 
“文本 模式 ”为 “没有 填充 和 空心 的 文本 (不 可 见 )” 正常 文字 应 为 “填充 文本 ” 
或 其 他 )。 这 样 通过 PDF 浏览 器 阅读 的 时 候 , 看 到 的 是 底层 原 汁 原味 的 扫描 图 像 ， 
各 种 公式 、 图 表 都 和 纸 上 看 到 的 一 样 ， 但 是 “搜索 ”或 用 文字 选取 工具 选取 时 ， 
又 可 以 直接 对 上 层 文字 进行 操作 。 因 此 这 种 PDF 能 够 较 好 地 避免 纯 扫 描 版 不 能 
检索 ， 纯 文字 版 排 公 式 、 表 格 困难 的 问题 ， 同 时 兼 有 扫描 版 保持 原文 版 式 ， 纯 文 
字 版 可 以 检索 、 复 制 /粘贴 的 优点 。Adobe Acrobat 8 就 把 能 制作 、 转 换 这 种 双 层 
PDF 作为 一 大 卖点 加 以 介绍 ， 虽 然 它 的 中 文 OCR 引擎 实在 不 怎么 样 。 

这 种 双 层 PDF 为 了 保证 用 文字 选取 工具 选择 文字 时 能 够 准确 定位 ， 通 常 要 
求 严格 实现 “ 字 压 图 ” 即 上 层 透明 文字 ， 要 与 底层 图 像 上 对 应 文字 的 大 小 、 位 
置 完 全 一 样 (当然 真正 完全 一 样 是 不 可 能 的 ， 只 能 尽量 对 准 )。 而 版 面 上 文字 的 
间距 、 大 小 、 字 体 可 能 变化 多 端 ， 所 以 在 生成 PDF 的 时 候 ， 通 常 对 每 个 字 的 位 
置 进行 单 独 描述 ， 这 就 导致 生成 的 结果 基本 上 不 可 再 校对 、 编 辑 。 不 信 可 以 用 
Foxit PDF Editor 打开 一 个 生成 好 的 双 层 PDF， 用 鼠标 一 个 一 个 点 过 去 ， 看 是 不 
是 一 次 只 能 选 一 个 中 文字 或 一 个 字母 、 数 字 ? 对 于 这 样 的 东西 ， 我 想 就 算是 《大 
话 西 游 》 里 的 唐僧 转世 ， 校 对 上 几 页 也 会 疯 掉 。 

当然 如 果 非 校对 不 可 ， 也 不 是 没有 办 法 ， 而 且 办 法 还 不 止 一 种 。 

如 果 错 误 不 多 ， 可 以 采用 下 面 的 方法 : 

1、 用 Acrobat 或 其 他 工具 ， 将 PDF 中 的 文字 信息 全 部 导出 成 文本 文件 。 































































































































































































































































































































































































































































































2、 用 Foxit PDF Editor 打开 PDF。 

3、 在 文本 文件 中 看 到 错别字 时 ,在 Foxit PDF Editor 里 选中 对 应 的 字 进 行 修 
改 。 

4、 改 后 別 忘 了 存 益 。 

如 果 看 了 文本 后 感觉 错误 很 多 ， 则 可 以 用 下 面 的 方法 : 

1、 用 Foxit PDF Editor 打开 PDF， 进 入 需要 修改 的 页 面 。 

2、 先 按 Ctrl+A 选择 全 部 对 象 ， 然 后 按 住 Ctrl 键 ， 在 页 面 空白 处 点 一 下 鼠标 
左 键 ， 将 背景 图 排除 在 选择 之 外 ， 以 确保 选中 的 都 是 文字 对 象 。 

3、 在 “文本 属性 ”页 中 ， 将 “文本 模式 ”从 “没有 填充 和 空心 的 文本 (不 
可 见 )” 改 成 “填充 文本 ” 然后 点 “更 改 ” 

4、 现 在 看 到 文字 显示 出 来 了 吧 ? 不 过 缺 省 文字 颜色 一 般 是 黑色 ， 看 起 来 费 
劲 ， 可 以 保持 文字 选中 状态 ， 进 入 “填充 颜色 ”页 ， 改 变 颜 色 、 透 明度 ， 然 后 点 
“更 改 ” 将 文字 压缩 和 背景 颜色 区 别 开 。 

5、 现 在 就 可 以 一 个 字 、 一 个 字 地 选中 、 修 改 了 。 改 完 后 再 按照 步骤 2 选中 
全 部 文字 ,按照 步骤 3 将 “文本 模式 ” 改 回 “ 没 有 填充 和 空心 的 文本 (不 可 见 )”， 
存盘 即 可 。 

FreePic2Pdf 在 将 多 层 PDG 转换 成 PDF 时 ， 用 的 是 与 PDG 浏览 器 绘制 多 层 
PDG 时 相同 的 顺序 : 在 一 个 空白 页 面 上 ， 先 放 上 底层 文字 层 ， 然 后 将 插图 顺 次 
堆 右 上 去 ， 揪 图 的 位 置 由 Pdg2Pic 在 生成 的 接口 文件 时 加 以 描述 。 通 常 PDF 文 
件 中 处 理 图 文 混 排 都 用 这 种 模式 。 

三 、Djvu 中 的 层 

DjVu 中 层 的 含义 比较 明确 ， 在 文件 格式 规范 中 有 清晰 的 定义 : 分 为 背景 层 
和 前 景 层 ,但 是 前 景 层 又 可 以 分 解 成 前 景 蒙 板 层 和 前 景 屋 ,所 以 一 个 标准 的 多 层 
Djvu 其 实 可 以 包含 三 层 : 背景 层 (background layer)、 前 景 层 (foreground layer)、 
前 景 蒙 板 层 (foreground mask)。 在 Lizardtech 公司 出 版 发 行 的 《Lizardtech DjVu 
Reference DjVu V3》 中 ， 对 他 们 的 说 明 是 : 


































































































































































































・ The background layer is used for encoding the pictures and the paper texture. 

・ The foreground layer is used for encoding the text and the drawings. 

。 The main component of the foreground layer is a bi-level image named the 
foreground mask. The pixel size of the foreground mask is equal to the size of the 
DjVu image. It contains a black-on-white representation of the text and the drawings. 

我 自己 的 经 验 和 理解 : 

“ 前 景 蒙 板 层 : 对 页 面 上 具有 清晰 轮廓 的 对 象 加 以 描述 ， 如 文字 、 表 格 、 线 
框 、 线 条 等 。 

“ 前 景 层 : 为 前 景 蒙 板 层 所 描述 的 轮廓 提供 填充 色 。 

“。 背景 层 : 包括 背景 、 底 纹 、 插 图 等 。 




























































































在 显示 DjVu 页 面 的 时 候 ， 实 际 象 素 点 的 颜色 根据 蒙 板 层 中 对 应 点 的 颜色 进 
行 选取 : 如 果 蒙 板 层 中 该 点 为 黑 , 则 该 点 实际 颜色 从 前 景 层 取 , 否则 从 背景 层 取 。 























如果 希望 対 DjVu 的 三 层 结构 进行 详细 研究 ， 可 以 用 DjVuToy v0.04+， 导 出 
DjVu 的 文件 结构 和 三 层 图 像 ， 与 《Lizardtech DjVu Reference DjVu V3》 中 的 说 
明 进 行 对 比 。 





我 个 人 一 直 认 为 ，DjVu 所 吹 咕 的 清晰 度 、 奈 缩 比 ， 都 与 它 的 分 层 方式 有 很 
大 关系 。 








先 说 清晰 度 。 由 于 采用 模板 层 对 轮廓 进行 选取 ， 最 终 显示 出 来 的 Djvu 図像 
在 文字 、 线 条 等 轮廓 边缘 显得 非常 锐利 、 清 晰 ， 不 会 出 现 JPG 图 像 那样 的 细小 
碎片 (高 频 杂 波 )， 看 起 来 自然 舒服 。 

再 说 压缩 比 。 对 于 文字 , DjVu 在 前 景 蒙 板 中 使 用 JB2 压缩 , 这 种 压缩 与 PDF 
中 的 JBIG2 相似 ( 在 井 源 項 目 djvulibre 中 对 二 者 的 渊源 有 过 描述 )， 对 于 黑白 图 
像 ， 尤 其 是 以 字母 、 数 字 为 主 的 黑白 图 像 ， 具 有 非常 高 的 压缩 率 。 而 对 于 插图 、 
底 纹 等 彩色 信息 ，DjVu 通常 在 背景 层 中 用 IW44 压缩 。IW44 与 JPEG 2000 也 磋 
有 渊源 (这 在 djvulibre 里 也 有 描述 )。 

总 之 ，DjVu 通过 将 页 面 内 容 分 解 ， 针 对 不 同 的 内 容 ， 在 不 同 的 层 中 用 不 同 
的 算法 进行 压缩 ， 其 还 原 效 果 、 压 缩 比 自然 要 比 其 他 只 有 一 层 的 图 像 格式 ， 如 
JPG、JPEG 2000 要 好 。 

另外 我 相信 ， 如 果 将 DjVu 的 分 层 技 术 活 用 到 PDF 格式 上 , 也 可 以 减 小 扫 睛 
版 PDF 文件 的 体积 : 目前 的 转换 软件 在 将 图 文 混 排 的 扫 瞄 页 面 转换 成 PDF 时 ， 
采用 的 是 早期 PDG 的 做 法 ， 即 将 整 页 作为 一 个 图 像 存 入 PDF， 这样 当然 比较 缺 
乏 效率 。 如 果 能 够 向 后 来 的 PDG 学 习 ， 将 文字 区 域 和 插图 区 域 分 开 ， 分 别 采用 
不 同 的 压缩 算法 (PDF 支持 不 同 的 图 像 对 象 采 用 不 同 的 压缩 算法 )， 则 整个 PDF 
文件 的 长 度 可 以 大 大 减少 。 目 前 只 是 没有 人 去 研究 这 种 分 割 的 方法 , 并 加 以 实现 。 

另外 在 DjVu 中 也 支持 类 似 “ 双 层 PDF” 的 东西 : 看 到 的 是 一 张 扫 描 出 来 的 
图 像 ， 用 鼠标 一 选 则 能 选中 文字 ， 或 对 文字 进行 检索 。 这 种 “ 双 层 DjVu” 的 文 
字 部 分 在 DjVu 文件 格式 规范 中 同样 没有 使 用 “ 层 (layer)” 这 个 词 加 以 定义 ， 
而 是 叫做 “Text Chunk”。 和 PDF 一 样 ， 这 种 DjVu 也 要 求 “ 字 压 图 ”因此 其 结 
果 也 基本 上 不 可 再 校对 、 编辑 : 不 是 技术 上 不 可 以 , 是 人 的 精力 和 精神 无 法 承受 。 
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滑 洪 用 例 。 用例 1 (一 组 各 种 格式 的 图 片 )， 用 例 2 Clibtiff 3.7.1 所 带 测试 图 

















友情 提示 : 虽然 我 已 经 尽量 简化 ,但 是 这 篇 文章 感觉 还 是 有 点 绕 , 我 自己 都 























没有 自信 


壳 就 能 看 懂 。 如 果 您 的 时 间 很 宝贵 ， 建议 不 要 随便 浪费 ， 还 是 去 做 




















该 做 的 事 吧 ， 这 里 讨论 的 不 过 是 些 鸡 毛 菏 皮 的 小 问题 。 
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、 需 要 解决 的 问题 





图 像 转 PDF 似乎 正在 成 为 一 个 热门 话题 ， 对 企业 或 组 织 来 说 ， 随 着 信息 化 
的 深入 ， 需 要 将 大 量 纸 质 档案 电子 化 ， 实 现在 线 查 询 、 共 享 ， 对 个 人 来 说 ， 随 着 
家 用 数码 相机 等 的 普及 ， 越 来 越 多 的 人 希望 将 电子 图 像 信 息 转 换 成 方便 浏览 、 共 
享 的 格式 。 由 于 PDF 文件 本 身 的 标准 化 、 方 便 性 ， 目 前 在 企业 和 家 庭 应 用 越 来 


越 多 ， 由 此 也 带动 了 诸多 图 像 转 PDF 软件 的 诞生 。 当然 “树林 子 大 了 ， 什 么 样 
































的 乌 都 有 ”， 人 至 于 乌 叫 得 怎么 样 ， 只 能 实际 比较 一 下 再 说 。 




















正好 由 于 工作 需要 ， 我 近期 参与 了 某 金 融 企 业 的 无 纸 化 办 公平 台 建 设 项 目 ， 
其 中 一 个 重要 内 容 就 是 将 该 企业 遍布 全 国 的 三 十 余 个 分 文 机 构 积 存 的 巨额 (最 先 
开始 扫描 的 一 个 分 支 机 构 就 有 近 三 百 万 页 ) 纸 质 档案 扫描 成 电子 文档 。 作 为 项 目 
负责 人 ， 我 代表 客户 与 国内 数 家 扫描 外 包公 司 进 行 了 接触 、 考 察 ， 并 对 能 够 搜集 
到 的 图 像 转 PDF 工具 进行 了 测试 、 比 较 ， 在 这 个 过 程 中 我 发 现 目前 图 像 转 PDF 
软件 大 致 可 以 分 为 两 类 ; 




























































































基于 虚拟 打印 原理 。 最 著名 的 大 概要 算 Adobe Acrobat Professional、PDF 
Factory。 基 于 虚拟 打印 原理 的 软件 开发 门槛 稍 高 一 些 ( 需 要 提供 打印 驱动 程序 )， 
所 以 多 为 收费 软件 ， 通 用 性 较 好 ， 除 图 像 文件 外 还 能 将 Word 等 所 有 可 打印 格式 
转换 成 PDF。 

直接 将 图 像 嵌 入 PDF 文件 .如 ACD Systems 出品 的 ACDSEE 中 的 Create PDF 
Wizzard、verypdf 出品 的 Image2Pdf 等 。 直 接 将 图 像 嵌 入 PDF 文件 的 软件 实现 相 
对 简单 ， 所 以 收费 、 免 费 的 都 有 。 

从 测试 的 结果 看 , 我 认为 这 两 类 工具 普遍 存在 一 些 共性 问题 , 包括 图 像 数 据 
流 重新 压缩 造成 的 问题 、 生 成 的 PDF 文件 的 阅读 顺畅 性 问题 、 对 特殊 图 像 格 式 
的 支持 问题 等 。 本 文 将 对 这 些 问 题 的 成 因 、 解 决 方法 加 以 探讨 。 













































































1、 图 像 数 据 流 





新 压缩 造成 的 问题 

















对 基于 虚拟 打印 原理 实现 的 转换 软件 来 说 ， 其 工作 过 程 为 : 

















转换 工具 提供 一 个 虚拟 打印 机 。 如 Acrobat 提供 的 打印 机 名 为 Adobe PDF。 

图 像 浏览 软件 打开 图 像 文 件 , 在 收 到 打印 命令 后 , 象 在 真实 打印 机 上 打印 一 
样 ， 将 图 像 逐 象 素描 绘 到 虚拟 “ 纸 ” 上 ， 形 成 发 送 给 虚拟 打印 机 的 数据 流 。 
虚拟 打印 机 收 到 数据 流 后 ， 根 据 图 像 的 色彩 空间 等 信息 ， 选 择 “ 合 适 ” 的 压 
缩 算 法 ， 对 数据 流 再 次 进行 压缩 以 减 小 文件 长 度 ， 然 后 将 压缩 后 的 数据 流 存 入 
PDF。 

为 了 测试 虚拟 打印 机 对 图 像 的 处 理 ， 我 选择 了 一 组 图 像 (用 例 1), 在 
ACDSEE 8.0 Build 39 中 打开 ， 选 中 所 有 图 像 ， 然 后 选择 “File->Print”， 打 印 到 
Acrobat 7.07 提供 的 PDF 虚拟 打印 机 (ACDSEE 和 PDF 打印 机 的 所 有 参数 均 为 
默认 值 )， 然 后 比较 原始 图 像 数据 和 PDF 中 的 图 像 数 据 ， 结 果 见 表 1.1。 表 1.1 
中 各 种 “解码 器 ”的 解释 见 本 文 后 续 的 “PDF 支持 的 图 像 格式 ”部 分 ,“PDF 中 
的 图 像 数 据 ” 各 栏 中 的 数据 来 自 开 源 的 PdfView。 如 果 您 有 兴趣 查看 PDF 文件 内 
部 细节 ， 建 议 用 UltraEdit-32， 仪 看 PDF 文件 结构 用 PdfView 足 笑 。 

























































































表 1.1 从 ACDSEE 打印 图 像 到 Acrobat PDF 虚拟 打印 的 结果 
原始 図像 PDF 中 的 图 像 数 据 
序号 说 明 宽 X 长 
( 象 素 ) 图 像 解码 器 文件 长 度 
( 字 节 ) PDF 解码 器 BitsPerComponent 
/ColorSpace 数据 流 长 度 
( 字 节 ) 








01 黑白 TIFF 1728X1103 CCTTT G3 50,401 CCITT G4 1/ICCBased 54,329 

02 黑白 TIFF 3315 X2334 CCITT G4 35,518 CCITT G4 1/ICCBased 36,110 

03 彩色 JPEG 格式 TIFF 512 X 384 DCTDecode 24,428 DCTDecode 
8/ICCBased 21,753 

04 灰 度 JPG 445X600 DCTDecode 34,167 FlateDecode 8/Indexed 200,404 

5 彩色 JPG 1024 X768 DCTDecode 102,776 DCTDecode 8/ICCBased 71,540 

06 16 级 灰 度 GIF 800X1199 LZWDecode 124,738 FlateDecode 4/Indexed 
128,925 

07 256 色 GIF 130X 129 LZWDecode 8,408 FlateDecode 8/Indexed 6,990 

08 黒白 PNG 32X32 FlateDecode 164 CCITT G4 1/ICCBased 41 

09 2 色彩 色 PNG 32X 32 FlateDecode 112 FlateDecode 1/ICCBased 21 

10 256 级 灰 度 PNG 600X905 FlateDecode 289,059 FlateDecode 8/Indexed 
286,947 

11 16 级 灰 度 PNG 720X 1053 FlateDecode 74,322 FlateDecode 4/Indexed 
74,943 

12 24 位 色 PNG 350X 560 FlateDecode 72,107 FlateDecode 8/ICCBased 79,351 

13 15 位 色 BMP 260X235 未 压缩 122,266 DCTDecode 8/ICCBased 5,783 

1416 色 BMP940X20RLE 8,134 FlateDecode 4/Indexed 2,868 

图 像 文件 总 长 度 〈 字 节 ) 946,600 

PDF 文件 总 长 度 〈 字 节 ) 989,431 

注 1. 图 像 01. 寺 经 ACDSEE 转 成 PDF 后 ， 图 像 物理 表示 的 高 度 变 成 2206, 
原因 后 面 会 加 以 解释 。 

注 2. 对 于 索引 色 (Indexed) 图 像 ,“ 数 据 流 长 度 ” 仪 包含 图 像 数 据 流 长 度 ， 
不 包含 索引 【〔 调 色 板 〉 数 据 流 长 度 。 严 格 说 来 这 会 造成 一 些 误差 ， 但 影响 不 大 。 
以 下 各 表 与 此 相同 ， 不 再 特殊 说 明 。 




















从 表 1.1 可 以 看 出 ， 对 于 ACDSEE 发 送 过 来 的 数据 流 ，Acrobat PDF 虚拟 打 
印 机 进行 如 下 处 理 : 











黑白 图 像 重 新 压缩 为 CCITT G4 数据 流 。 

灰 度 、 索 引 色 《〈 调 色 板 ) 网 像 压 缩 为 Flate (ZP) 数 据 流 , 色 深 
(BitsPerComponent) 不 变 。 

非 索 引 色 (如 15 位 色 、24 位 色 ) 图 像 压 缩 为 DCT (JPG) 或 Flate 数据 流 。 
似乎 Acrobat PDF 虚拟 打印 机 能 自动 识别 压缩 为 哪 种 数据 流 更 有 利 ， 但 压缩 成 
JPG 数据 流 时 似乎 质量 系数 很 低 : 文件 更 小 , 原 量 更 差 。 

考虑 跨 平 台 特 性 ， J 乡 均 表 示 为 ICCBased， 并 给 出 对 照 表 。 

这 种 处 理 带 来 的 问题 是 

















对 于 有 损 压 缩 的 灰 度 JPG， 转 换 后 就 成 了 无 损 压 缩 的 数据 流 ， 必 然 导 致 文件 
长 度 的 膨胀 。 

对 于 原来 无 损 压 缩 的 彩色 图 像 (PNG、BMP)， 转 换 后 可 能 成 为 有 损 压 缩 的 
JPG 数据 流 ， 造 成 图 像 质 量 下 降 (从 转换 后 的 数据 流 长 度 看 ,重新 压缩 的 PG 质 
量 系数 不 会 太 高 )。 对 于 原来 就 是 有 损 压缩 的 彩色 PG 图 像 来 说 ， 由 于 是 解码 后 

再 压缩 ， 图 像 质 量 将 会 逐次 衰减 。 
























































为 了 确认 是 否 所 有 软件 在 使 用 虚拟 打印 机 转换 PDF 时 ， 均 会 对 JPG 图 像 进 
行 再 压缩 , 我 进行 了 第 二 个 试验 :在 Word 2003 中 插入 用 例 1 中 的 13 张 图 像 (Word 
2003 不 支持 03.tif)， 每 张 图 像 前 面 再 插入 一 点 文字 (图 像 编 号 )， 然 后 打印 到 
Acrobat PDF 虚拟 打印 。 限 于 篇 幅 , 这 里 不 列举 具体 结果 (用例 1 是 公开 的 , Word 
2003、Acrobat 也 不 难 找 ， 想 要 较真 的 人 可 以 自己 动手 试 一 下 )， 仪 说 明 结 果 : 















































对 01、02 两 个 TIFF 文件 ，Word 转换 成 CCITT G4 压缩 ， 而 且 01.tif 物理 表 
示 的 高 度 未 变 , 这 比 ACDSEE 强 。 但 是 这 两 个 图 像 均 被 分 解 成 了 多 个 对 象 (01.tif 
分 成 2 个 ，02.tf 分 成 8 个 )， 相 当 于 将 原始 图 像 切 制 成 多 个 水 平 横 条 ， 每 个 对 象 
代表 一 条 。 

对 04、05 两 个 JPG 图 像 ，Word 将 原始 文件 完整 地 和 藤 入 了 PDF 文件 ， 但 在 
结尾 添加 了 一 个 x (OAH) 字符 。 显 然 ，Word 并 没有 对 原始 JPG 文件 进行 解码 、 
再 压缩 。 

对 06、07 两 个 GIF 文件 , Word 打印 后 均 成 为 ZIP 数据 流 ， 与 ACDSEE 相 
似 。 

对 08、09 两 个 PNG 文件 ，Word 打印 后 成 了 4 位 索引 色 图 像 

(BitsPerComponent 王 4，Indexed)， 压 缩 算法 仍然 为 ZIP。10 一 12 三 个 PNG 文 
件 转 换 结果 与 ACDSEE 相似 。 

13、14 两 个 BMP 文件 转换 结果 与 ACDSEE 相似 。 

从 转换 结果 的 对 比 来 看 ，Word 和 ACDSEE 的 打印 结果 在 TTFF、 JPG、 PNG 
方面 存在 较 大 差距 : 


















































对 于 TIFF 图 像 ，Word 对 图 像 进行 了 切 制 ， 这 个 估计 与 Word 对 图 像 的 显示 
方式 有 关 ; 另外 Word 没有 改变 图 像 的 物理 表示 ， 这 与 下 面 要 谈 的 “直接 将 图 
像 侍 入 PDF 文件 ”的 转换 软件 类 似 。 

对 于 JPG 图 像 ，Word 没有 再 压缩 的 过 程 ， 因 此 不 会 造成 图 像 质量 的 衰减 。 

对 于 PNG 図像 , Word 似乎 有 自己 的 表示 方法 , 存在 解码 、 重 新 压缩 的 过 程 ， 
并 且 将 BitsPerComponent 小 于 4 的 PNG 转换 成 BitsPerComponent 等 于 4 的 图 像 ， 
这 点 与 CxImage 很 象 。 

为 了 搞 清 为 什么 Word 不 需要 对 JPG 图 像 进行 解压 即 可 直接 打印 到 虚拟 打印 
机 ， 我 查 了 一 下 微软 的 MSDN， 其 中 对 StretchDIBits 函数 的 解释 引起 了 我 的 注 












































Windows 98/Windows 2000: This function allows a JPEG or PNG image to be 
passed as the source image. How each parameter is used remains the same, exceDt : 


If the biCompression member of BITMAPINEFOHEADER is BI JPEG or 
BI_PNG lpBits points to a buffer containing a JPEG or PNG image, respecuvely. The 
BITMAPINFOHEADER'S biSizelmage member specifies the size of the buffer. The 
1Usage parameter must be set to DIB_RGB_COLORS. The dwRop parameter must be 
set to SRCCOPY. 

To ensure proper metafile spoohng while printing, applcations must call the 
CHECKJPEGFORMAT or CHECKPNGFORMAT escape to verify that the printer 
recognizes the JPEG or PNG image, respectvely, before calling StretchDIBits. 





StretchDIBits 是 在 绘制 、 打 印 图 像 时 的 常用 函数 ， 虽 然 我 不 可 能 看 到 Word 
的 源 代 码 ， 但 我 相信 Word 直接 或 间接 使 用 了 这 个 函数 。 为 了 证 实 Acrobat 虚拟 
打印 机 对 JPG 数据 流 的 支持 ， 我 用 VC++ 写 了 一 个 小 程序 ， 核 心 打印 代码 来 自 
MSDN 文章 “Testing a Printer for JPEG or PNG Support”， 最 终 证 实 了 我 的 猜测 ; 
Acrobat 虚拟 打印 机 允许 直接 将 JPG 数据 流 发 送 给 它 ， 但 是 不 文 持 PNG 数据 流 。 

综 上 所 述 ， 对 于 基于 虚拟 打印 原理 实现 的 图 像 转 PDF 工具 ， 可 能 会 存在 如 
下 间 题 : 



































对 于 有 损 压缩 的 JPG 文件 ， 转 换 成 PDF 后 的 质量 与 发 出 打印 命令 的 软件 密 
切 相 共 。 如 象 ACDSEE 这 样 先 解码 再 打印 ， 必 然 会 因为 图 像 的 再 压缩 而 造成 质 
量 衰减 或 文件 膨胀 。 而 象 Word 这 样 直接 将 JPG 数据 流 发 送 到 虚拟 打印 机 ， 则 与 
软件 内部 的 打印 设置 有 关 ， 设 置 好 了 可 以 直接 将 数据 流 完整 嵌入 PDF 而 不 造成 
损失 或 膨胀 ， 设 置 不 好 则 同样 可 能 造成 损失 。 另 外 打印 机 对 JPG 数 据 流 的 支持 

受 平台 限制 ， 我 犹 这 就 是 为 什么 包括 ACDSEE 在 内 的 大 多 数 软件 宁愿 先 解码 后 
打印 的 原因 : 解码 成 bitmap 再 打印 可 以 不 受 平台 限制 。 

对 于 无 损 压缩 的 图 像 文 件 ， 如 GIF、PNG、BMP 等 ， 真 彩 图 像 往 往 会 被 转 
换 成 有 损 压缩 的 JPG 数据 流 ， 造 成 图 像 质量 损失 ; 灰 度 、 索 引 色 图 像 往 往 会 被 
解码 后 再 压缩 成 某 种 无 损 压 
于 原 图 像 压缩 算法 ， 则 可 能 造成 PDF 文件 的 膨 有 

0 
同 ， 其 工作 过 程 为 : 










































































用 户 在 转换 软件 中 选择 需要 转换 的 图 像 文件 。 

转换 工具 按照 PDF 文件 规范 创建 PDF 文件 ， 写 入 文件 头 信 息 。 

转换 工具 逐一 从 图 像 文件 中 抽取 图 像 数 据 ,， 视 需要 对 数据 进行 转换 , 然后 将 
数据 打包 成 PDF 对 象 ， 写 入 PDF 文件 。 
转换 工具 写 入 PDF 文件 尾 ， 打 包 结 束 。 
为 了 测试 图 像 侍 入 式 转 换 工 具 的 效果 ， 我 将 与 表 1.1 相同 的 図像 文件 (用例 
用 ACDSEE 8.0 (Build 39) 的 Create PDF Wizzard 转换 成 PDF, 结果 见 表 1.2。 
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表 1.2 ACDSEE 8 PDF 创建 插件 转换 结果 
原始 図像 PDF 中 的 図像 数 据 
序号 说 明 宽 X 长 
( 象 素 ) 解码 器 文件 长 度 
( 字 节 ) 解码 器 BitsPerComponent 
/ColorSpace 数据 流 长 度 
( 字 节 ) 
01 黑白 TIFF 1728 X 1103 CCITT G3 50,401 DCTDecode 8/DeviceGray 
905,917 
02 黑白 TIFF 3315X2334 CCITT G4 35,518 DCTDecode 8/DeviceGray 
693,129 
03 彩色 JPEG 格式 TIFF 512 X 384 DCTDecode 24,428 DCTDecode 
8/DeviceRGB 34,496 
04 灰 度 JPG 445X600 DCTDecode 34,167 DCTDecode 8/DeviceGray 59,338 








5 彩色 JPG 1024X768 DCTDecode 102.776 DCTDecode 8/DeviceRGB 

129,655 

06 16 级 灰 度 GIF 800X 1199 LZWDecode 124,738 DCTDecode 8/DeviceRGB 
319,743 

07 256 色 GIF 130X 129 LZWDecode 8,408 DCTDecode 8/DeviceRGB 6,706 

08 黒白 PNG 32 X32 FlateDecode 164 DCTDecode 8/DeviceGray 936 

092 色 乡 色 PNG 32 X 32 FlateDecode 112 DCTDecode 8/DeviceRGB 896 

10 236 级 灰 度 PNG 600 X905 FlateDecode 289.059 DCTDecode 8/DeviceGray 
185,845 

11 16 级 灰 度 PNG 720X1053 FlateDecode 74,322 DCTDecode 8/DeviceGray 
206,121 

12 24 位 色 PNG 350X560 FlateDecode 72,107 DCTDecode 8/DeviceRGB 
38,468 

13 15 位 色 BMP 260X235 未 压缩 122,266 DCTDecode 8/DeviceRGB 8,209 

14 16 色 BMP 940X20 RLE 8,134 DCTDecode 8/DeviceRGB 22,018 

图 像 文 件 总 长 度 〈 字 节 ) 946,600 PDF 文件 总 长 度 〈 字 节 ) 2.619,592 





从 表 1.2 中 可 以 看 出 ，ACDSEE 8.0 (Build 39) 的 Create PDF Wizzard 対 図像 
的 转换 原则 是 : 


灰 度 图 像 一 律 转 换 成 灰 度 JPG 数据 流 。 

彩色 图 像 一 律 转换 成 彩色 JPG 数 据 流 。 

看 来 ACSEE 对 它 的 PG 转换 引擎 还 真 不 是 一 般 地 有 信心 ! 但 从 表 1.2 所 列 
数据 看 ， 这 种 转换 也 不 是 没有 问题 : 




















对 于 黑白 图 像 ，CCITT G4 的 压缩 比 通常 比 灰 度 JPG 高 许多 ， 毕 竟 它 是 专 为 
压缩 黑白 图 像 而 研发 的 压缩 算法 。 因 此 将 CCITT G3/G4 转换 成 灰 度 JPG 无 疑 将 
会 造成 文件 膨胀 ， 而且 脱 胀 得 很 明显 。 这 点 对 电子 文档 来 说 比较 重要 ， 大 多 数 白 
纸 黑 字 的 纸 质 文档 扫描 后 都 是 黑白 图 像 。 

对 于 低 色 深 (如 16 级 灰 度 ) 图 像 来 说 ， 转 换 成 灰 度 JPG (256 级 灰 度 ) 同 
可 能 造成 文件 膨胀 。 

对 于 本 来 就 是 JPG 压缩 格式 的 图 像 , 用 ACSEE WA 肛 的 
问题 ， 莫 非 是 ACSEE 转换 插件 用 的 JPG 质量 系数 比较 高 

不 论 原 来 的 图 像 格 式 是 什么 ， 经 过 ACSEE 的 转换 后 件 转换 后 全 部 全 再 
新 压缩 成 有 损 的 JPG 数据 流 ， 无 疑 会 对 图 像 质 量 造成 损伤 。 

ACSEE 的 转换 插件 效果 很 令 我 失望 , 为 了 比较 其 它 散 入 式 工具 的 转换 效果 ， 
我 又 用 用 例 1 测试 了 verypdf 的 Image2Pdf v1.7， 转 换 结果 见 表 1.3。 
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表 1.3 Imase2Pdf 转换 结果 
原始 図像 PDF 中 的 図像 数 据 
序号 说 明 宽 X 长 
( 象 素 ) 解码 器 文件 长 度 
( 字 节 ) 解码 器 BitsPerComponent 
/ColorSpace 数据 流 长 度 





( 字 节 ) 

01 黑白 TIFF 1728X1103 CCITT G3 50,401 CCITT G4 1/DeviceGray 41,638 

02 黒白 TIFF 3315 X2334 CCITT G4 35,518 CCITT G4 1/DeviceGray 34,981 

03 彩色 JPEG 格式 TIFF 512 X 384 DCTDecode 24,428 DCTDecode 
8/DeviceRGB 32,815 

04 灰 度 JPG 445 X 600 DCTDecode 34,167 DCTDecode 8/DeviceGray 34,167 

05 彩色 JPG 1024 X768 DCTDecode 102,776 DCTDecode 8/DeviceRGB 
102,776 

06 16 级 灰 度 GIF 800 X 1199 LZWDecode 124,738 RunLengthDecode 
4/Indexed/DeviceRGB 206,880 

07 256 色 GIF 130 x 129 LZWDecode 8,408 RunLengthDecode 
8/Indexed/DeviceRGB 13,380 

08 黑白 PNG 32X32 FlateDecode 164 FlateDecode/PNG 1/DeviceGray 91 

09 2 色彩 色 PNG 32 x 32 EateDecode 112 FlateDecode/PNG 
1/Indexed/DeviceRGB 21 

10 256 级 灰 度 PNG 600 Xx 905 FlateDecode 289.059 FlateDecode/PNG 
8/DeviceGray 288,582 

11 16 级 灰 度 PNG 720 X1053 FlateDecode 74,322 FlateDecode/PNG 
4/Indexed/DeviceRGB 74,063 

12 24 位 色 PNG 350 X560 FlateDecode 72,107 FlateDecode/PNG 8/DeviceRGB 
71,954 

13 15 位 色 BMP 260X235 未 压缩 122,266 DCTDecode 8/DeviceRGB 8,707 

1416 色 BMP940X20RLE 8,134 DCTDecode 8/DeviceRGB 20,890 

图 像 文 件 总 长 度 〈 字 节 ) 946,600 PDF 文件 总 长 度 ( 字 节 ) 942,458 














从 表 1.3 看 ，Image2Pdf 对 图 像 数 据 的 处 理 要 比 ACDSEE 的 PDF 创建 插件 


智能 得 多 ; 











对 于 黑白 TIFF 文件 ， 能 够 自动 压缩 成 CCITT G4; 彩色 TIFE 解码 后 压缩 成 
JPG。 

对 于 JPG 文件 ， 根 本 就 没有 解压 、 再 压缩 的 过 程 ， 直 接 将 原始 JPG 文件 一 
个 字 节 不 改 就 嵌入 PDF 文件 ， 从 而 避免 因为 再 次 压缩 而 造成 质量 衰减 ， 而 且 解 
压 、 再 压缩 的 时 间 也 省 了 。 

对 于 GIF 文件， 解压 后 压缩 为 RLE〈 行 程 编码 )。 由 于 RLE 的 压缩 率 远 不 
如 GIF 本 身 的 LZW 算法 ， 因 此 这 种 再 压缩 会 造成 文件 膨胀 。 佑 计 这 种 吃力 不 讨 
好 的 做 法 与 传说 中 LZW 压缩 算法 的 版 权 有 关 。 

对 于 PNG 文件 ， 数 据 流 压缩 算法 不 变 (PNG 压缩 算法 在 PDF 中 对 应 
/DecodeParms[<</Predictor 15>>]), 但 数据 流 长 度 会 稍 小 一 些 , 估计 是 去 掉 了 PNG 
文件 中 的 无 关 信息 。 

对 于 彩色 BMP 文件 ， 全 部 重新 压缩 成 JPG 数据 流 ， 在 色彩 数 较 多 、 色 调 过 
渡 自 然 时 能 够 减 小 文件 长 度 , 否则 会 增加 文件 长 度 。 当 然 不 论 哪 种 情况 画面 质量 
都 会 损失 。 

其 它 图 像 转 PDF 的 软件 我 还 试 过 一 些 ， 不 过 基本 与 以 上 几 种 工具 类 似 ， 都 
可 能 因为 对 图 像 数 据 流 重 新 压缩 而 产生 一 些 问题 , 差别 只 在 问题 的 多 与 少 、 严 








































































































与 不 严 


将 无 损 压 缩 转换 成 有 损 压 缩 ， 或 对 有 损 压 缩 解码 后 再 次 有 损 压 缩 ， 必然 造成 
图 像 质量 下 降 。 

改变 文件 数据 流 的 压缩 方法 , 在 某 些 情况 下 可 以 减 小 文件 长 度 , 在 某 些 情况 
下 则 会 造成 文件 长 度 膨胀 。 关 键 是 看 数据 与 压缩 方法 的 搭配 是 否 合适 。 

对 于 直接 读 取 图 像 数据 的 转换 工具 , 由 于 可 以 从 原始 图 像 文件 中 获取 丰富 的 
图 像 信 息 , 包括 原始 数据 压缩 算法 等 , 因此 可 以 针对 不 同 的 文件 格式 或 不 同 的 图 
像 情况 做 出 选择 ; 基于 虚拟 打印 原理 实现 的 转换 工具 , 如 果 打印 机 内 能 得 到 解码 
后 的 数据 流 ， 选 择 的 余地 就 会 小 一 些 : 只 能 从 bitmap 数据 流 中 获取 色 深 等 信息 ， 
然后 自行 选择 算法 重新 压缩 数据 。 

2、 阅 读 的 顺畅 性 问题 
















































































这 里 说 的 阅读 顺畅 性 问题 ， 是 指 : 


如果 PDF 纸张 选择 A4、B5 等 标准 纸张 ， 而 原始 图 像 的 长 宽 比 例 与 所 选 纸 
张 的 长 宽 比 例 不 一 致 ， 必 然 会 在 上 下 或 左右 出 现 较 多 空白 ， 影 响 阅读 。 

如果 PDF 纸张 随 图 像 大 小 而 变化 ， 则 转换 出 来 的 页 面 可 能 大 小 不 一 ， 在 阅 
读 时 感觉 页 面 路 来 跳 去 ， 很 是 不 爽 。 

对 于 第 一 个 问题 ， 目 前 没有 什么 好 的 解决 方案 。 对 于 第 二 个 问题 ， 可 能 的 解 
决 方案 包括 : 




















建议 用 户 在 阅读 时 将 PDF Reader 设置 为 单 页 、 适 合 宽度 ， 这 样 每 一 页 都 会 
自动 缩放 到 Reader 的 窗口 宽度 。 如 果 嫌 麻烦 ， 也 可 以 在 生成 PDF 时 就 指定 “ 初 
人 视图 ”中 的 “页 面 布局 ”为 “ 单 页 ” “放大 率 ” 为 “适合 宽度 ”。 这 种 方法 的 
缺点 是 前 后 翻 页 时 不 如 “连续 ”模式 顺畅 。 

在 生成 PDF 文件 时 为 页 面 指定 一 个 固定 宽度 ， 页 面 的 长 度 按照 原始 图 像 的 
长 宽 比 自动 伸缩 。 这 种 方法 能 保证 在 以 “连续 ”模式 阅读 时 页 面 不 会 跳 来 跳 去 ， 
当然 打印 出 来 还 是 会 在 纸张 的 上 下 或 左右 产生 空白 。 

3、 对 特殊 图 像 格式 的 支持 问题 
































这 里 说 的 “特殊 图 像 格式 ”, 其实 主要 就 是 TIFF 格式 。 在 常见 的 图 像 格式 中 ， 
JPG、GIF、PNG、BMP 等 都 有 严格 的 格式 规定 ， 可 以 发 挥 的 余地 不 多 。 但 是 对 
于 TIFF 来 说 ， 由 于 标准 本 身 希 望 能 够 包容 尽 可 能 多 的 东西 ， 但 是 对 实现 细节 没 
有 给 出 具体 的 规定 ， 所 以 各 家 软件 生成 的 TIFF 文件 五 花 八 门 ， 令 人 头疼 。 



































以 我 提供 的 测试 用 例 2 为 例 ， 这 个 其 实 是 支持 TIFF 文件 最 权威 的 开源 项 目 
libtiff 3.7.1 版 所 带 测 试图 片 ， 不 过 去 挤 了 一 张 caspian.tf( 该 图 片 共 3 通 道 , 単 
通道 采样 位 数 高 达 64 位 浮 点数 , 我 的 32 位 真 彩 显示 器 单 通道 采样 位 数 只 有 8 
位 整数 ， 显 示 不 了 这 么 高 级 的 图 片 )。 但 仅 赁 剩 下 的 这 些 图 片 ， 已 经 可 以 难 倒 包 
括 verypdf 的 Image2Pdf 在 内 的 一 大 批 图 像 转 PDF 软件 ， 就 算是 ACDSEE 这 样 
“专业 ”的 图 像 浏览 器 ，5.0.1 版 在 看 这 些 图 像 时 也 会 出 现 比例 失调 (fax2d.tif、 
g3test.df)、 看 不了 〈quad-tile.tif)、 颜 色 失 真 Csmallliz.tif、 zackthecat.Gf) 等 问题 ; 
8.0 版 虽然 修正 了 上 述 问 题 ， 但 又 出 现 新 的 问题 : 看 dscf0013.tif 时 颜色 失真 。 





















































其 实 这 些 文件 还 算 好 ， 毕 竟 是 libtiff 组 织 提 供 的 ， 至 少 它 自己 的 源 代码 还 能 
解 出 来 。 但 在 我 接触 到 的 国内 专业 扫描 外 包公 司 中 ， 大 多 数 公司 提供 的 TIFF 文 
件 只 要 采用 了 有 损 压缩 ， 多 半 就 连 libtiff 也 解 不 井 , ACDSEE 更 是 想 都 不 用 想 。 
有 些 其 至 连 专门 显示 TIFF 文件 的 Microsoft Office Document Imaging( 微 软 Office 
2003 所 带 附件 之 一 ) 都 解 不 开 。 

































































偏偏 由 于 工作 需要 ， 我 必须 和 这 些 怪异 TIFF 文件 打交道 。 我 想到 的 出 路 包 
括 : 














不 要 在 TIFF 文件 中 使 用 有 损 压 缩 ， 尤 其 不 要 用 各 品牌 专业 高 速 扫描 仪 所 带 
扫描 软件 生成 有 损 压 缩 TIFF 文件 。 由 于 历史 原因 ， 这 些 软件 遵循 的 多 半 是 古老 
的 TIFE 标准 ， 生 成 的 文件 大 概 只 有 它们 自己 的 阅读 软件 能 打开 。 如 果 有 必要 对 
图 像 进行 有 损 压 缩 ， 直 接 存 储 为 标准 JPG 格式 即 可 ， 这 个 很 难 玩 什 么 花样 。 

以 libtiff 源 代码 为 基础 , 针对 这 些 图 像 不 规范 的 地 方 , 逐步 修正 libtiff 代码 。 
这 就 是 为 什么 前 段 时 间 我 自己 写 的 ComicEnhancer Pro 一 直 在 升级 的 原因 。 我 其 
至 怀疑 ， 可 能 就 是 因为 TIFF 格式 支持 起 来 太 麻 烦 ， 所 以 正 才 不 文 持 。 

除 TIFF 外 , PNG 文件 也 是 一 种 可 能 会 造成 潜在 麻烦 的 格式 。 但 是 与 TIFF 
不同 , PNG 的 矿 烦 不 在 于 文件 格式 本 身 或 数据 压缩 算法 ， 而 在 于 它 丰 富 的 色彩 
表示 : PNG 支持 灰 度 、 索 引 、 彩 色 、Alpha 通道 彩色 图 像 ， 并 且 色 深 除 低 端的 1、 
2、4、8 位 外 ， 还 支持 16 位 色 深 。 有 兴趣 又 喜欢 较真 的 人 ， 可 以 到 libpng 下 载 
一 份 libpng 源 代码 , 里 面 的 contrib\pngsuite 文件 夹 下 就 包含 了 一 堆 图 片 ， 专门 用 
于 测试 软件 对 PNG 色彩 支持 的 能 




















































































































从 我 测试 的 结果 看 ， 软 件 在 处 理 PNG 图 像 时 可 能 出 现 的 问题 包括 : 





将 16 位 色 深 简化 成 8 位 色 深 ,这 个 在 通常 24 位 /32 位 显示 器 上 看 不 出 问题 ， 
因为 这 些 显示 器 最 多 只 文 持 8 位 色 深 , 但 是 将 来 高 端 显示 成 本 降低 后 可 能 就 会 被 
人 看 出 差异 了 。PDF 文件 也 是 从 PDF 1.5 版 (Acrobat 6.0) 开始 才 支持 16 位 色 
深 。 

对 于 低 色 深 (BitsPerComponent < 4) 的 PNG 图 像 , 转换 成 BitsPerComponent 
二 4 的 索引 色 图 像 ， 造 成 轻微 的 文件 膨胀 。 

综 上 所 述 ， 目 前 图 像 转 PDF 工具 普通 存在 一 些 共性 的 问题 ， 包 括 图 像 数 据 
流 重新 压缩 造成 的 问题 、 生 成 的 PDF 文件 的 阅读 顺畅 性 问题 、 对 特殊 图 像 格 式 
的 文 持 问 题 等 。 为 了 更 好 地 理解 这 些 问题 ， 并 找到 解决 办 法 ， 下 面 先 简单 介绍 一 
下 PDF 中 与 图 像 相关 的 基本 概念 。 





















































二 、 预 备 知识 


事 先 声明 : 本 部 分 所 有 内 容 均 来 自 Adobe 公司 发 布 的 《PDF Reference Sth 
edition》, 说 白 了 就 是 我 看 这 份 文 档 时 做 的 笔记 的 一 部 分 ， 所 以 看 起 来 可 能 有 点 
无 头 无 尾 ， 各 位 看 得 懂 就 看 ， 看 不 懂 就 去 看 《PDF Reference 5th edition》 原 文 吧 。 























1、PDF 支持 的 图 像 格 式 





在 PDF 文件 中 , 図像 点 隆信 息 以 庄 多数 据 流 的 形式 存在 , PDF 通过 过 滤器 
人 对 数据 流 解 人权。 在 《PDF Reference Sth edition》 中 ， 共 介绍 了 十 种 过 滤 
器 ， 其 中 与 图 像 相 关 的 如 表 2.1 所 示 。 


























表 2.1 PDF 文件 支持 的 图 像 过 滤器 





过 滤器 名 称 对 应 压缩 算法 通称 对 应 图 像 格式 压缩 类 型 说 明 
LZWDecode LZW GIF、TIFF 无 损 通常 用 于 索引 色调 色 板 〉 图 像 
FlateDecode ZIP PNG、TIFF 无 损 除 图 像 外 ， 也 用 于 文本 压缩 
RunLengthDecode RLE BMP、TIFF 无 损 通常 用 于 单 色 图 像 
CCITTFaxDecode G3/G4 TIFF 无 损 专 为 黑白 图 像 研发 的 高 效 压缩 算法 
JBIG2Decode JBIG2 JBG 无 损 专 为 黑白 图 像 研发 的 高 效 压缩 算法 
DCTDecode JPEG JPG、TIFF 有 损 用 于 256 级 灰 度 、24 位 真 彩 自然 图 像 
JPXDecode JPEG2000 J2K、JP2 有 损 / 无 损 JPEG 的 最 新 标准 ， 压 缩 比 与 质 



































量 并 


从 表 2.1 看 ， 其 实 对 大 多 数 常 见 图 像 格式 ， 都 可 以 将 原 数 据 流 直接 舱 入 PDF 
文件 ， 不 需要 再 重新 编码 。 当 然 某 些 数 据 ， 如 JPG 文件 中 eh PNG 文件 的 
文件 头 /文件 尾 ， 在 PDF 文件 中 没 用 ， 可 以 先 剔 除 再 将 剩余 部 分 髋 入 PDF 文件 。 
而 对 于 TIFF 文件 , 需要 针对 具体 压缩 算法 ,将 真正 图 像 数 据 抽取 出 来 再 柑 入 PDF 
文件 。 






































直接 使 用 原始 数据 流 而 不 再 重新 编码 ， 不 仅 能 够 节省 图 像 转换 成 PDF 的 时 
间 ， 而 且 对 于 有 损 压 缩 ， 可 以 避免 因为 反复 压缩 而 造成 图 像 质 量 的 衰减 。 但 是 对 
于 GIF 格式 的 LZW 压缩 来 说 ， 情 况 有 点 复杂 : 由 于 Unisys 公司 声称 对 LZW 算 
法 拥有 专利 权 ， 导 致 很 多 软件 ， 包 括 大 名 易 易 的 xpdf 在 内 ， 放 弃 对 LZW 的 文 
持 ， 改 用 开源 的 Flate 压缩 算法 。Flate 其 实 是 Winzip 等 软件 使 用 的 ZIP 压缩 算 
法 的 另外 一 个 名 字 。《PDF Reference Sth edition》 中 对 这 两 种 算法 的 描述 如 下 ( 黑 
体 效 果 是 我 自己 加 的 ): 










































































Because of its cascaded adaptive Huffman coding, Flate-encoded output is 
usually much more compact than LZWencoded output for the same input. Flate and 
LZW decoding Speeds are comparable, but Flate encoding is considerably slower than 
LZW encoding. 


























由 于 上 文中 黑体 部 分 的 描述 ， 及 诸多 公司 、 组 织 卷 入 与 Unisys 的 专利 纠纷 ， 
因此 在 我 见 到 的 图 像 转 PDF 工具 中 , 没有 使用 LZW 压缩 算法 的 ， 都 宁愿 将 用 
LZW 压缩 的 GIF 图 像 解码 后 再 压缩 成 FIate 数据 流 。 这 种 转换 在 多 数 情况 下 能 获 
得 更 好 的 压缩 比 , 但 例外 总 是 有 的 (所 以 上 文 用 的 词 是 usually， 而 不 是 always )， 
如 用 例 1 中 的 06.gif, LZW 就 比 ZIP 有 效 得 多 ， 这样 的 图 片 我 还 有 几 张 , 不 过 限 
于 篇 幅 和 空间 ， 就 不 节 外 生 枝 了 。 






































对 于 LZW 和 Flate 压缩 ，PDF 还 支持 预报 器 (Predictor)， 预 报 器 表示 根据 





图 像 的 某 些 特征 ,， 先 对 图 像 进行 某 些 预 处 理 后 再 对 处 理 结果 进行 压缩 ， 以 获取 更 
高 的 压缩 比 。 在 《PDF Reference Sth edition》 中 定义 的 预报 器 见 表 2.2。 小 于 10 
的 预报 器 称 TIFF 预报 器 ， 源 自 libtiff; 10 以 上 的 称 PNG 预报 器 ， 源 自 ibpng。 
因此 如 果 PDF 文件 中 定义 图 像 的 物理 表示 时 使 用 了 Predictor 属性 ， 多 半 可 以 猜 
到 原始 图 像 的 格式 。 在 表 3.1 和 表 1.3 中 ， 为 了 更 好 地 进行 比较 ， 采 用 PNG 预 
报 器 的 Flate 解码 器 均 标 注 为 FlateDecode/PNG。 




















表 2.2 预报 器 


预报 器 值 含义 

1 No prediction (the default value) 

2 TIFF Predictor 2 

10 PNG predicton (on encoding, PNG None on all rows) 
11 PNG prediction (on encoding, PNG Sub on all rows) 

12 PNG prediction (on encoding, PNG Up on all rows) 

13 PNG prediction (on encoding, PNG Average on all roWs) 
14 PNG prediction (on encoding, PNG Paeth on all rows) 
15 PNG prediction (on encoding, PNG optimum) 


2、 図 像 在 PDF 中 的 物理 表示 


一 幅 图 像 在 PDF 文件 中 通常 用 一 个 XObject 対象 表示 ( 某 基 TIFE 図像 可能 
要 用 多 个 对 象 表示 )， 这 个 对 象 描述 图 像 的 原始 象 素 点 阵 信 息 ， 因 为 这 些 点 阵 信 
姑 由 产生 图 像 的 设备 本 喘 的 物理 性 质 ( 如 扫描 仪 的 DPI、 数码 相机 的 有 效 象 素 
数 等 ) 决定 ， 因 此 在 这 里 称 为 图 像 的 物理 表示 ， 在 《PDF Reference 5th edition》 
中 又 称 为 采样 表示 〈Sample Representation ) 。 








































































































要 描述 图 像 的 物理 表示 ， 和 需要 提供 下 列 信息 : 














图 像 的 宽度 (width)， 以 象 素 为 单位 。 

图 像 的 高 度 (height)， 以 象 素 为 单位 。 

每 象 素 的 颜色 通道 数 ， 或 色彩 空间 (The number of color components per 
sample, ColorSpace )。 

通道 的 采样 位 数 (The number of bits per color component, 
BitsPerComponent)。 

图 像 象 素 点 阵 数 据 流 (stream)。 
解码 图 像 数 据 流 所 需 的 过 滤器 (Filter) 名 称 ， 及 过 滤器 采用 的 预报 器 

(Predictor ) 。 

以 用 例 1 为 例 ， 在 ACDSEE 8 PDF 创建 插件 转换 的 PDF 中， 用 如 表 2.3 所 
示 的 XObject 定义 第 二 幅 图 像 (数据 来 自 PdfView， 右 侧 双 和 斜 杠 后 面 是 我 自己 
加 的 注释 ): 

















表 2.3 图 像 对 象 定义 实例 
9 0 obj 





<< 

/Type /XObject 

/Subtype /Image 

/Name /Image90 

/Width 3315 

/Height 2334 

/BitsPerComponent 8 

/ColorSpace /DeviceGray 

/Filter [/DCTDecode] 

/Length 693129 

>> 

stream 

endstream 

endobj // 对 象 定义 开始 ， 对 象 帮 为 9 
/ 字典 (dictionary) 定义 开始 

// 对 象 类 型 为 XObject 

/ 对 象 子 类 型 为 图 像 

// 对 象 名 称 Image90 

// 图 像 宽度 3315 象 素 

// 図像 高度 2334 象 素 

/ 每 通道 采样 位 数 为 8 

1/ 色彩 空间 为 256 级 灰 度 

/ 解码 过 滤器 为 JPG (参见 表 2.1) 
/ 数据 流 长 度 693129 字 节 

// 字典 定义 结束 

/ 数据 流 开始 

/ 数据 流 内 容 ， 一 串 16 进 制 数 ， 此 处 从 略 
/ 数据 流 结束 

// 对 象 定义 结束 



































PDF 中 的 每 个 对 象 均 有 一 个 ID (编号 )， 通 过 对 象 ID， 可 以 对 对 象 本 吴 进 
行 引 用 。 如 一 个 LOGO 图 像 可 能 作为 背景 出 现在 每 一 个 页 面 上 ， 在 每 一 页 中 没 
有 必要 都 包含 这 个 LOGO 图 像 的 实际 数据 ， 只 要 引用 这 个 LOGO 図像 的 ID 即 
可 。 这 样 无 疑 可 以 提高 PDF 文件 的 存储 效率 。 上 例 中 图 像 的 对 象 ID 就 是 9。 




















3、 图 像 在 PDF 中 的 逻辑 表示 











前 面 说 的 图 像 的 物理 表示 是 用 象 素 点 来 表示 图 像 , 但 是 如 果 直 接 按照 象 素 点 
对 图 像 进行 显示 、 打 印 ， 可 能 会 出 现 问题 。 以 用 例 1 中 的 第 二 幅 图 像 为 例 ， 象 
素 点 阵 为 3315X2334， 如 果 在 分 辨 紊 为 96 DPI 的 显示 器 上 显示 ， 尺 寸 是 34.5 英 
寸 X24.3 英寸 (1 英 寸 三 2.54 厘米 , 实际 英寸 数 二 象 素数 二 DPI, 如 3315 -96=34.5 
英寸 ), 而 在 分 辩 率 为 300 DPI 的 打印 机 上 打印 ,打出 来 具有 11.1 英寸 X7.8 英寸 ， 























显然 与 PDF 要 求 的 “在 任何 平台 上 均 可 获得 相同 的 效果 ”不 符 。 因 此 在 用 物 
和 表示 定义 出 图 象 的 象 素 点 阵 后 , 在 实际 需要 显示 图 像 的 地 方 , 不 仅 要 给 出 图 像 
物理 表示 的 対象 ID， 还 需要 给 出 图 像 的 逻辑 表示 ， 包 括 : 



































图 像 的 逻辑 尺寸 。 这 个 尺寸 的 单位 是 1772 英寸 ， 因 此 是 一 个 逻辑 概念 ， 即 

论 在 什么 样 的 设备 上 输出 图 像 ， 图 像 的 大 小 都 是 固定 的 英寸 值 , 而 不 会 随 着 输 
出 役名 的 DPT 人 怕人。 

图 像 的 偏 移 量 ， 即 图 像 左 上 角 点 距离 页 面 左上 角 点 的 距离 , 这 同样 是 一 个 与 
设备 的 物理 分 辩 率 无 关 的 逻辑 量 ， 单 位 为 1772 英寸 。 

图 像 的 旋转 角度 。 

这 种 物理 与 逻辑 表示 的 分 离 ， 可 以 带 来 一 些 好 处 : 
























































同一 份 物理 数据 ， 可 以 在 不 同 的 地 方 、 用 不 同 的 大 小 、 以 不 同 的 旋转 角度 进 
行 显 示 。 

通过 将 物理 表示 映射 成 逮 辑 表示 ,可 以 脐 离 设备 的 物理 性 能 限制 , 在 不 同 的 
设备 上 获得 相同 的 效果 。 

具体 到 PDF 文件 格式 上 ， 在 一 个 页 面 上 显示 一 幅 图 像 ， 除 了 前 面 说 过 的 图 
像 的 物理 表示 对 象 外 ， 还 需要 定义 页 面 (Page) 对 象 ， 然 后 在 Page 対象 中 : 
































用 MediaBox 属性 定义 页 面 的 逻辑 大 小 ， 单 位 为 1772 英寸 。 

用 Resources 属性 定义 页 面 中 包含 的 资源 ， 即 前 面 说 的 图 像 物理 表示 的 对 象 
ID 。 

用 Contents 属性 定义 资源 对 象 〈 图 像 ) 的 逻辑 表示 。 

Contents 属性 通常 定义 一 个 六 元 组 ， 表 示 为 [ab, c, d, e, 和， 则 从 图 像 物 理 坐 
标 (x, y) 映 射 为 逻辑 坐标 (x', y) 的 映射 关系 可 以 表示 为 如 下 和 矩阵 运算 : 

































































r ab0 コ っ 
[x'y'1]1=lxy1]X | cdo0 | 式 2.1 
L efO = 





或 表示 为 如 下 解析 表达 式 : 





x'=ax+cy+e 式 2.2 
y=bx+dy+f 


从 《计算 机 图 形 学 》 知 识 可 知 ， 式 2.1、 式 2.2 中 参数 a、d 分 别 为 x、y 向 
比例 系数 ， 实 现 从 物理 尺寸 到 逻辑 尺寸 的 映射 ，c、b 为 旋转 系数 ， 表 示 图 像 显 
示 时 的 旋转 角度 ; e、f 为 平移 系数 ， 表 示 图 像 到 页 面 左上 角 的 偏 移 量 。 














以 用 例 1 为 例 ， 在 ACDSEE 8 PDF 创建 插件 转换 的 PDF 中 , 用 如 表 2.4 所 
示 的 结构 定义 第 二 页 。 

















表 2.4 页 面 对 象 定义 实例 
8 0 obj 


<< 

/Type /Page 

/Parent 30R 

/Contents 7 0 R 

/MediaBox [0 0 3315 2334] 
/Resources <</ProcSet [/PDE /ImageC] /XObject <</Image90 9 0 R>>>> 
>> 
endobj // 对 象 定义 开始 
/ 字典 定义 开始 

/ 对 象 类 型 

// 父 対象 

/ 内 容 在 対象 7 定义 

// 页面 大 小 

/ 页 面包 含 的 图 像 

/ 字典 定义 结束 

/ 对 象 定义 结束 























内 容 对 象 7 中 定义 了 图 像 对 象 的 逻辑 表示 ， 如 表 2.5 所 示 。 








表 2.5 图 像 对 象 的 逻辑 表示 实例 

7 0 obj 

<< 

/Length 38 

>> 

Stream 

d 

331500233400cm 

/Image90 Do 

Q 

endstream 

endobj // 对 象 定 义 开 始 

/ 字典 定义 开始 

/ 数据 流 长 度 38 字 节 

/ 字典 定义 结束 

/ 数据 流 开始 

// 保存 图 像 状态 (Save graphics state) 
/ 式 2.1 座 标 映射 所 需 的 六 元 组 (Coordinate transformation Matrix) 
// 绘制 映射 后 的 图 像 (Paint image) 

// 恢复 图 像 状 态 (Restore graphics state) 
/ 数据 流 结束 

/ 对 象 定义 结束 
































从 表 2.5 的 六 元 组 参数 看 ，ACDSEE 8 PDF 创建 插件 用 一 种 很 偷懒 的 方法 构 
造 该 六 元 组 : 直接 用 图 像 的 物理 象 素 尺寸 作为 逻辑 尺寸 。 由 于 屏幕 DPI 通常 为 
96 DPI， 而 PDF 为 72 DPI， 这 种 偷懒 造成 的 后 果 就 是 图 像 在 PDF Reader 中 按照 
“实际 大 小 ”显示 时 ， 看 起 来 会 比 在 ACDSEE 中 按照 “完整 大 小 ”显示 更 大 一 
些 。 精 确 一 点 说 ， 这 张 图 片 在 PDF 中 的 “实际 大 小 ”达到 了 46.04 英寸 X32.42 
英寸 。 其 中 46.04=3315 72, 32.42 三 2334 72。 












































对 于 喜欢 较真 的 人 来 说 ，ACDSEE 的 这 种 偷懒 造成 了 更 深层 次 的 失真 : 用 
例 1 中 的 第 二 幅 图 像 是 一 张 扫 描 形成 的 TIFF 図像 , 在 TIFF 文件 结构 中 记载 了 
扫描 时 扫描 仪 使 用 的 DPI 値 一 一 200 DPI。 在 ACDSEE 8 中 打开 此 图 像 文 件 ， 点 
击 “ 文 件 -> 属性 ”菜单 ， 在 显示 出 来 的 文件 属性 中 即 可 看 到 扫描 DPI， 及 按照 扫 
DPI 换算 , 这 张 图 片 对 应 原始 纸 质 页 面 的 大 小 16.57 英寸 X11.67 英寸 。 这 
个 尺寸 与 46.04 英寸 X32.42 英寸 相 比 ， 实 在 是 差 得 太 远 了 一 点 。 
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而 如 果 用 verypdf 的 Image2Pdf v1.7 对 同一 张 图 片 进行 转换 ， 可 以 看 出 转换 
后 的 PDF 页 面 大 小 为 16.57 英寸 X11.67 英 寸 , 即 在 PDF Reader 中 选择 按照 “ 实 
际 大 小 ”进行 显示 , 显示 出 来 的 图 像 大 小 , 正好 与 原始 纸 质 文 件 的 大 小 一 模 一 样 。 
显然 这 样 的 结果 更 符合 文档 电子 化 的 要 求 和 习惯 。 























Image2Pdf 的 这 种 “ 保 真 ”转换 过 程 可 以 描述 如 下 : 

















如 果 图 像 文件 中 记录 了 扫描 时 扫描 仪 的 DPI 设置 ， 则 先 按照 “英寸 数 == 象 
素数 二 扫描 DPI”， 计 算出 图 像 的 原始 尺寸 ， 以 英寸 为 单位 。 

按照 <PDF 尺寸 = 英寸 数 X72”, 将 以 英寸 为 单位 的 图 像 原始 尺寸 转换 成 PDF 
中 的 逻辑 尺寸 ， 并 据 此 填写 六 元 组 。 

三 、 问 题 的 解决 办 法 















































在 了 解 了 相关 预备 知识 后 , 再 回顾 前 面 提 到 的 图 像 转 PDF 需要 面 对 的 问题 ， 
其 答案 自然 明了 : 





图 像 数据 流 重 新 压缩 造成 的 问题 : 对 有 损 压缩 图 像 数 据 ,， 应 尽量 将 原始 数据 
流 藤 入 PDF 文件 ， 避 人 免 重 新 压缩 造成 图 像 质量 衰减 ， 对 无 损 压 缩 图 像 数 据 ， 可 
以 根据 图 像 特征 选择 合适 的 无 损 压 缩 算法 重新 压缩 图 像 数据 ， 以 节省 存储 空间 ， 
也 可 以 直接 将 原始 图 像 数 据 衣 入 PDF， 以 节省 重新 压缩 所 需 的 时 间 。 

阅读 的 顺畅 性 问题 : 提供 灵活 多 样 的 页 面 布局 供用 户 按 需 选择 , 包括 固定 纸 
张大 小 、 固 定 纸 张 宽 度 、 按 照 图像 大 小 定制 页 面 等 。 页面 大 小 的 不 同 不 应 对 原始 
图 像 数 据 流 〔( 图 像 的 物理 表示 〉 造成 影响 ， 而 是 通过 定义 图 像 的 逻辑 表示 ， 由 
PDF Reader 本 身 来 完成 必要 的 图 像 缩 放 工 作 。 

特殊 图 像 格 式 的 支持 问题 , 这 个 问题 靠 等 待 很 难 等 到 结果 ,最 简单 的 办 法 就 
是 自己 去 面 对 、 解 决 。 

总 之 , 对 于 象 我 这 样 有 特殊 要 求 的 人 来 说 , 在 目前 的 情况 下 要 想得到 满意 饼 
结果 ， 还 是 只 能 贯彻 “人 要 靠 自 己 ” 的 原则 。 当 然 也 没有 必要 重新 发 明 轮 子 ， 在 
我 看 来 最 理想 的 情况 就 是 能 够 在 现 有 开源 项 目 基 础 上 ， 通 过 必要 的 修改 和 补充 ， 
就 能 达到 我 的 要 求 。 但 是 google 的 结果 令 我 稍微 有 点 惊讶 : 虽然 目前 最 权威 的 


























































































































































































































図像 codec 开源 项 目 都 是 基于 C 的 , 包括 JPEG LIB、libpng、libtiff 等 ， 但 是 偏 
偏在 PDF 生成 领域 ，JAVA 似乎 比 C 多， 包括 iText 等 一 大 批 开 源 项 目 ， 而 C 只 
有 PDFlib、ClibPDF、Panda 等 有 数 的 几 个 。 








ClibPDF 从 参考 手册 上 看 ， 在 绘图 等 功能 方面 很 有 特色 ， 但 是 对 于 图 像 文件 
的 支持 较 差 ， 而 且 要 付费 ， 所 以 我 粗 看 了 一 下 ， 没 有 深究 。 











Panda 的 功能 、 接 口 都 非常 简洁 明了 ， 生 成 的 PDF 文件 也 没 多 少 费 话 ， 所 以 
我 花 时 间 详 细 试 了 一 下 。 结 果 发 现 一 个 小 小 的 小 缺点 : 它 的 内 存 漏洞 实在 是 太 多 
了 点 ， 补 都 补 不 过 来 ， 最 后 只 好 放弃 。 











相 比 之 下 ，PDFlib 堪 称 内 容 丰 富 、 功 能 强大 ， 某 些 高 级 功能 (web 优化 、 权 
限 控制 等 ) 虽然 要 付费 才能 看 到 ， 但 就 算是 免费 开源 出 来 的 PDFLib Lite， 对 于 
各 种 图 像 格式 的 支持 也 足够 一 般 性 使 用 了 ， 而 旦 基本 上 没什么 明显 的 内 存 漏洞 。 
因此 我 在 DACapturer 中 试用 了 一 把 。 但 是 在 使 用 一 段 时 间 后 就 发 现 一 些 问题 : 
































PDFLib 的 强大 其 实 是 和 它 代码 的 复杂 程度 分 不 开 的 ， 想 对 这 样 的 代码 做 更 
改 ， 实 在 太 麻 烦 了 。 

PDFLib 生成 的 PDF 文件 中 废话 太 多 ,导致 文件 膨胀 。 DACapturer 对 此 不 是 
很 在 乎 , 但 是 在 需要 处 理 的 文件 数 以 万 、 十 万 做 单位 的 业务 系统 中 就 需要 考虑 了 。 

PDFLib 对 JPG、PNG 的 支持 很 好 ， 但 是 对 TIFE 的 支持 可 以 用 “ 令 人 发 指 ” 
来 形容 : 不 支持 JPEG/OJPEG 压缩 的 TIFF 还 可 以 弥补 (做 在 DACapturer 中 通过 
在 PDFLib Lite 之 外 打 补 丁 的 办 法 解决 ), 但 是 将 TIFF 中 的 每 个 strip 当 作 一 个 对 
象 来 处 理 ， 就 有 点 过 分 了 ， 甚 至 发 生 过 这 样 的 事 : 用 PDFLib 转换 十 几 页 TIFF 
成 为 PDF， 居然 在 PDF 中 创建 了 几 千 个 obj, 后 来 用 iText 对 这 样 的 PDF 文件 进 
行 合并 操作 ， 甚至 活活 把 iText 拖 垮 了 。 所 以 用 了 没 多 久 , 俺 就 下 定 决心 一 定 要 
和 PDFLib 说 再 见 。 
由 于 问题 的 根子 出 在 TIFF 文件 上 ， 所 以 我 的 目光 很 快 集中 到 llibtiff 源 代码 
中 包含 的 tiff2pdf.c。 这 份 代码 是 我 见 过 最 简洁 的 PDF 生成 代码 , 而 且 由 于 是 libtiff 
自己 提供 的 ， 马 马虎 虎 算是 出 身 名 门 、 血 统 纯正 ， 对 TIFF 文件 的 支持 当然 很 可 
观 ， 我 就 是 用 它 弥补 了 PDFLib 不 支持 JPEG/OJPEG 压缩 TIFF 文件 的 问题 。 当 
然 这 份 代码 也 不 是 一 点 问题 没有 : 































































































为 了 节省 内 存 消耗 ， 生 成 PDF 时 采用 了 一 种 很 少见 的 顺序 ， 导 致 在 生成 过 
程 中 难以 动态 添加 新 的 图 像 。 

对 JPEG/OJPEG、CCITT G3/G4、zip 压缩 的 TIFF 支持 很 好 ， 但 是 对 其 它 格 
式 TIFF 的 支持 有 待 加 強 , 用 用 例 2 测试 一 下 就 知道 了 。 

好 在 这 份 代码 比较 简单 ， 结 构 中 规 中 矩 ， 改 起 来 不 是 太 难 。 最 终 我 以 它 为 基 
础 实现 了 新 版 图 像 转 PDF 内 核 ， 并 结合 大 名 易 易 的 CxImage， 将 对 图 像 格式 的 
支持 从 TIFF 扩展 到 了 JPG、PNG、BMP 和 GIFE， 成 为 公开 发 行 的 免费 软件 
FreePic2Pdf， 能 够 实现 : 
























































对 有 损 压缩 的 jpg 文件 及 采用 JPEG/OJPEG 算法 压缩 的 TIFF 文件 ， 能 直接 








将 原始 JPEG 数据 流 谍 入 PDF 文件 ， 避 免 因 为 重新 采样 而 造成 图 像 质量 下 降 。 

对 于 无 损 压 缩 的 图 像 文 件 ， 黑 白 图 像 解码 后 压缩 为 G4， 其 它 解码 后 压缩 成 
ZIP 数据 流 嵌入 PDF 文件 。 虽 然 解码 /压缩 需要 消耗 一 些 时 间 ， 但 是 在 多 数 情况 
下 可 以 减 小 PDF 文件 长 度 。 

可 以 指定 生成 的 PDF 文件 的 页 面 大 小 ( 除 A4、B5 等 ， 还 支持 国内 常用 的 
32 井 、16 开 、 大 32 开 ) 及 页 边 踢 ， 这 种 指定 不 会 更 改 图 像 的 物理 表示 ， 只 影响 
PDF 中 对 图 像 的 逻辑 表示 。 

如 果 不 指定 页 面 的 纸张 大 小 ,可 以 指定 页 面 的 固定 宽度 (长 度 随 图 像 大 小 伸 
缩 )， 保 证 连续 阅读 时 不 会 因为 页 面 宽度 变 来 变 去 而 影响 阅读 。 

对 libtiff 源 代码 进行 了 更 改 ， 以 尽 可 能 支持 各 种 特殊 格式 的 TIFF 文件 ， 直 
接 调用 libpng 对 PNG 图 像 进行 处 理 ， 以 支持 特殊 色 深 的 PNG 文件 。 

用 FreePic2Pdf 対 用 例 1 进行 转换 ， 结 果 见 表 3.1。 













































































表 3.1 FreePic2Pdf 转换 结果 
原始 図像 PDF 中 的 図像 数 据 
序号 说 明 宽 X 长 
( 象 素 ) 解码 器 文件 长 度 
( 字 节 ) 解码 器 BitsPerComponent 
/ColorSpace 数据 流 
长 度 
〈 字 贡 ) 
01 黑白 TIFF 1728X1103 CCITT G3 50,401 CCITT G4 1/DeviceGray 41,638 
02 黒白 TIFF 3315 X2334 CCITT G4 35,518 CCITT G4 1/DeviceGray 34,981 
03 彩色 JPEG 格式 TIFF 512 X 384 DCTDecode 24,428 DCTDecode 
8/DeviceRGB 23,169 
04 灰 度 JPG 445X600 DCTDecode 34,167 DCTDecode 8/DeviceGray 34,167 
05 彩色 JPG 1024 X768 DCTDecode 102,776 DCTDecode 8/DeviceRGB 
102,776 
06 16 级 灰 度 GIF 800 Xx 1199 LZWDecode 124,738 FlateDecode 
4/Indexed/DeviceRGB 126,407 
07 256 色 GIF 130X 129 LZWDecode 8,408 FlateDecode 8/Indexed/DeviceRGB 
7,031 
08 黑白 PNG 32X32 FlateDecode 164 CCITT G4 1/DeviceGray 40 
09 2 色彩 色 PNG 32X32 FlateDecode 112 FlateDecode 1/Indexed/DeviceRGB 











17 

10 256 级 灰 度 PNG 600X905 FlateDecode 289,059 FlateDecode 8/DeviceGray 
278,021 

11 16 级 灰 度 PNG 720 X1053 FlateDecode 74,322 FlateDecode 
4/Indexed/DeviceRGB 73,199 

12 24 位 色 PNG 350 X560 FlateDecode 72,107 FlateDecode/PNG 8/DeviceRGB 
71,954 

13 15 位 色 BMP 260X235 未 压缩 122,266 FlateDecode/PNG 8/DeviceRGB 
31,764 

14 16 色 BMP 940X20RLE 8.134 FlateDecode 4/Indexed/DeviceRGB 2.832 


图 像 文件 总 长 度 〈 字 节 ) 946,600 PDF 文件 总 长 度 〈 字 节 ) 838.932 








对 比 表 3.1 和 表 1.3， 可 以 看 出 FreePic2Pdf 优先 考虑 图 像 质 量 ， 其 次 考虑 压 
缩 比 、 生 成 速度 。 





另外 用 例 1 的 第 一 张 图 片 很 有 趣 , 用 libtiff 帯 的 TiffInfo 查看 它 的 信息 如 下 : 





TIFF Directory at offset Oxc3c6 

Image Width: 1728 Image Length: 1103 
Resolution: 204, 98 pixels/inch 
Bits/Sample: 1 

Compresslon Scheme: CCTTT Group 3 
Photometric Interpretation: min-is-white 
FillOrder: 1sb-to-msb 

Orientation: row 0 top, col 0 lhs 
Samples/Pixel: 1 

Rows/Strip: (nfinite) 

Planar Configuration: single image plane 
Page Number: 1-1 

Software: fax2tiff 

Group 3 Options: (0 = Ox0) 

Fax Data: clean (0 = 0x0) 

Bad Fax Lines: 0 

Consecutive Bad Fax Lines: 0 











这 张 图 片 在 宽度 方向 上 的 扫描 DPI 约 为 长 度 方向 的 两 倍 (204798), 如果 対 
这 种 差异 处 理 不 好 ， 会 带 来 意外 的 结果 。 以 ACDSEE 为 例 ，5.0.1 版 显示 该 图 片 
时 就 会 变形 ， 页 面 顶 部 的 圆 变 成 了 扁 椭圆 ， 到 8.0 版 时 显示 出 了 正 圆 ， 但 是 图 像 
的 长 度 从 1103 变 成 了 2206， 而 且 在 ACDSEE 8 打印 和 用 PDF 创建 插件 转换 成 
PDF 后 ， 在 PDF 文件 的 图 像 物理 表示 中 ， 这 张 图 片 的 长 度 均 描述 为 2206 象 素 。 
显然 ，ACDSEE 内 部 对 图 像 数据 流 进 行 了 更 改 〈 治 长 度 方向 放大 一 倍 )， 以 符合 
原 长 宽 比 ， 这 对 于 图 像 显示 软件 来 说 无 可 厚 非 ， 但 是 对 于 PDF 转换 软件 来 说 就 
有 点 多 余 , 会 增加 最 终 PDF 的 文件 长 度 。Image2Pdf 没有 对 这 张 图 片 的 物理 表示 
进行 更 改 ， 而 是 试图 通过 调整 图 片 的 逻辑 表示 ， 由 PDF Reader 在 显示 时 进行 长 
宽 比 调整 。 但 不 幸 的 是 ，Image2Pdf v1.7 似乎 把 比例 算 反 了 ， 结 果 导 致 最 终 PDF 
显示 出 来 后 ， 圆 变 成 了 长 椭圆 。FreePic2Pdf 吸取 了 这 些 教训 ， 能 够 通过 对 图 像 
逻辑 表示 的 正确 设置 ， 在 不 改变 物理 表示 的 情况 下 ， 以 正确 的 长 宽 比 例 显示 该 
图 像 。 























































































































由、 小 结 








由 于 种 种 原因 ， 目 前 图 像 转 PDF 工具 容易 出 现 图 像 数 据 流 重新 压缩 造成 的 
问题 、 阅 读 的 顺畅 性 问题 、 对 特殊 图 像 格式 的 支持 问题 等 。 


解决 图 像 数据 流 重新 压缩 造成 的 问题 的 建议 , 对 有 损 压缩 的 图 像 数 据 ,应 尽 




















量 将 原始 数据 流 址 入 PDF 文件 ， 避 免 重新 压缩 造成 图 像 质量 衰减 ;对 无 损 压 纵 
图 像 数据 ,可 以 根据 图 像 特征 选择 合适 的 无 损 压 缩 算法 重新 压缩 图 像 数 据 ， 以 贡 
省 存储 空间 ， 也 可 以 直接 将 原始 图 像 数据 人 谋 入 PDF， 以 节省 重新 压缩 所 需 的 时 
同 。 












































解决 阅读 的 顺畅 性 问题 的 建议 : 制作 工具 提供 灵活 多 样 的 页 面 布局 供用 户 按 
需 选 择 ， 包 括 固定 纸张 大 小 、 固 定 纸张 宽度 、 按 图 像 大 小 调整 纸张 大 小 等 。 页 面 
大 小 的 不 同 不 应 对 原始 图 像 数 据 流 (图 像 的 物理 表示 ) 造成 影响 ， 而 是 通过 定义 
图 像 的 逻辑 表示 ， 由 PDF Reader 本 身 来 完成 必要 的 图 像 缩放 。 

对 特殊 图 像 格式 的 支持 ， 需 要 针对 具体 情况 进行 开发 。 

为 了 验证 我 提出 的 上 述 问 题 及 其 解决 方法 ,我 开发 了 一 个 免费 的 图 像 转 PDF 
工具 FreePic2Pdf， 有 需要 的 可 以 到 我 的 网 站 下 载 。 该 软件 考虑 的 优先 顺序 依次 
是 : 图 像 质量 、PDF 文件 大 小 、 转 换 速 度 。 
























































五 、 题 外 话 一 : PDF 转 图 像 





前 面 说 了 半天 图 像 转 PDF, 自然 会 产生 一 个 问题 : 将 PDF 转 成 图 像 又 如 何 ? 
我 个 人 认为 目前 将 PDF 转 成 图 像 也 可 以 分 成 两 种 : 


将 PDF 每 一 页 的 内 容 〈 包 括 图 像 和 文字 ) 转 成 一 个 图 像 文 件 ， 从 感觉 上 
似 于 对 PDF Reader 的 显示 区 进行 截屏 。 

从 PDF 文件 里 找 出 原始 图 像 数 据 流 ， 然 后 转 存 成 对 应 的 图 像 文 件 。 

第 一 种 的 代表 软件 包括 verypdf 公司 的 PDF2HTML 等 。 PDF2HTML 除了 将 
页 面 转 成 图 像 ， 还 能 生成 包含 图 像 和 翻 页 按钮 的 HTML 页 面 ， 方 便 在 没有 安装 
PDF Reader 的 机 器 上 浏览 原 PDF 文件 的 内 容 。 不 过 在 这 种 “眉毛 大 子 一 把 抓 ” 
的 转换 结果 里 要 取出 某 幅 图 像 的 内 容 ， 大 概 只 能 用 Photoshop 慢 慢 抜 了 。 





























第 二 种 的 代表 软件 包括 Adobe Acrobat Professional ( 菜 単 項 : 
Advanced->Export All Images)。 如 果 喜 欢 开 源 代 码 ， 也 可 以 看 看 Xpdf 组 织 提供 
的 pdfimages。 从 我 使 用 的 结果 看 ，Acrobat 略 显 霸道 ， 不 管 原 来 的 图 像 是 什么 格 
式 ， 转 换 出 来 都 成 了 一 种 格式 。pdfimages 稍 好 一 点 ，JPG 数据 流 可 以 直接 导出 
JPG 文件 ， 其 它 无 损 数据 流 解码 后 导出 为 ppm 文件 ， 不 过 对 于 某 些 特殊 色彩 

空间 (ColorSpace ) 的 JPG 数据 流 , 直接 导出 会 导致 偏 色 , 只 能 解码 后 导出 为 ppm 
文件 。 其 实 部 分 特殊 色彩 空间 可 以 导出 为 JPG 压缩 的 TIFF 文件 ， 从 而 避免 对 
数据 进行 解码 、 再 压缩 ，pdfimages 不 知道 为 什么 没有 考虑 。 

































































六 、 题 外 话 二 : 除了 PDF， 还 有 什么 ? 














以 IT 界 的 眼光 来 看 ， 电 子 文档 发 展 到 现在 历史 也 不 算 短 了 ， 而 且 由 于 巨大 
市 场 前 景 的 诱惑 ， 各 厂家 也 都 纷纷 推出 了 自己 的 格式 。 单 纯 从 以 文 持 扫 描 图 像 为 
主 的 电子 文档 来 说 ， 格式 虽 多 ， 但 是 能 够 成 气候 、 形 成 标准 的 ， 除 了 PDF 格式 
外 ， 还 有 多 页 TIFF、JBIG2、DjVu 等 。 这 些 格式 的 共同 点 是 : 

















再 














支持 多 页 ， 能 够 将 整 卷 档案 或 整 部 书 存储 在 一 个 文件 中 。 


遵循 开放 的 标准 ， 能 够 吸收 最 先进 的 图 像 压 缩 技 术 为 己 用 。 
当然 这 些 格式 目前 的 影响 力 都 不 如 PDF， 我 认为 原因 也 都 差不多 : 











宣传 和 市 场 工作 做 得 不 够 。PDF 在 成 为 ISO 标准 前 有 Adobe 公司 在 花 大 力 
气 推动 ， 现 在 更 有 N 家 公司 卷 了 进来 ， 市 场 的 大 饼 越 做 越 大 ， 相 比 之 下 其 它 格 
式 就 显得 技术 有 余 ， 市 场 不 足 。 

相应 的 文 持 工 具 和 软件 不 足 。PDEF 虚拟 打印 机 用 起 来 多 方便 ,其 它 格式 的 虚 
拟 打 印 机 则 少 得 多 。 就 算是 用 专用 工具 辛 辛 苗 苦 做 出 来 , 想 和 其 它 人 分 享 成 果 的 
肘 候 , 还 得 间 间 他 的 机 器 上 有 没有 装 相 应 的 浏览 软件 ， 未 免 太 麻 類 。 当然 渕 覧 的 
问题 和 前 一 个 问题 相关 ， 几 年 前 也 不 是 所 有 机 器 上 都 装 PDF Reader 的 。 

1、 多 页 TIFF 





















































这 个 应 该 算 比 较 老 的 标准 了 , 由 于 扫描 、 出 版 界 传统 上 就 习惯 用 TIFF 格式 ， 
所 以 将 多 页 TIFF 作为 电子 文档 的 一 种 标准 格式 ， 应 该 是 顺理成章 的 事 ， 国 内 部 
分 省 市 先行 制定 的 电子 档案 管理 相关 规定 也 曾 要 求 用 多 页 TIFF 作为 扫描 电子 文 
件 的 存储 格式 。 
























































但 是 从 实际 情况 看 , 真正 用 多 页 TIFF 存储 的 电子 文档 并 不 多 , 在 2005 年 颁 
布 执行 的 《中 华人 民 共 和 国 行业 标准 DA/T31 一 2005 纸 质 档案 数字 化 技术 规范 》 
中 ， 干 脆 就 没 多 页 TIFF 什么 事 : 








8 图 像 存储 

8・1 存储 格式 

8・1・1 采用 黑白 二 值 模式 扫描 的 图 像 文件 ， 一 般 采 用 TIFF(G4) 格 式 存 储 。 
采用 灰 度 模式 和 彩色 模式 扫描 的 文件 ， 一 般 采 用 JPEG 格式 存储 。 存 储 时 的 压缩 
率 的 选择 ， 应 以 保证 扫描 的 图 像 清 晰 可 读 的 前 提 下 ， 尽 量 减 小 存储 容量 为 准则 。 

8・1・2 提供 网 络 查 询 的 扫描 图 像 ， 也 可 存储 为 CEB、PDF 或 其 他 格式 。 













































































多 页 TIFF 为 何 会 遭 到 冷落 呢 ? 我 猜测 的 原因 包括 : 





缺乏 方便 的 浏览 工具 。 众 所 周知 TE 不 支持 TIFF 格式 ， 所 以 网 上 浏览 TIFF 
只 能 借助 专门 开发 的 控件 。 即 使 只 在 本 地 机 上 浏览 ， 也 只 有 ACDSEE 等 为 数 不 
多 的 图 像 浏览 软件 支持 多 页 TIFFE， 浏 览 时 想 做 标注 、 笔 记 很 困难 。 

格式 不 规范 , 这 个 恐怕 是 最 为 致命 的 问题 。 从 我 接触 的 情况 看 , 由 于 历史 的 、 
技术 的 和 其 它 的 原因 ， 目 前 国内 众多 扫描 外 包 服 务 公司 提供 的 扫描 TIFF 文件 ， 
黑白 图 像 用 G4 压缩 不 会 有 什么 问题 ， 但 是 灰 度 、 彩 色 图 像 在 有 损 压 缩 时 多 半 都 
用 OJPEG 压缩 ， 而 且 格式 多 与 规范 不 符 ， 这 就 造成 扫描 出 来 的 图 像 只 能 用 该 公 
司 提 供 的 图 像 浏览 软件 才能 浏览 ， 极 大 地 限制 了 TIFF 文件 的 传播 。 俺 在 实际 工 
作 中 为 了 处 理 客户 遍 布 全 国 的 分 文 机 构 委托 当地 外 包 商 扫描 的 档案 文件 , 与 这 些 
非 标 准 TIFF 文件 进行 了 长 期 的 、 艰 昔 卓 绝 的 斗争 (看 看 俺 的 ComicEnhancer Pro 
最 近 的 更 新 记录 就 知道 了 )， 相信 有 资格 说 这 句 话 。 我 相信 在 《中 华人 民 共 和 国 
行业 标准 DA/T31 一 2005 纸 质 档案 数字 化 技术 规范 》 中 规定 灰 度 和 彩色 图 像 用 
JPG 存储 ， 也 就 是 为 了 避免 产生 这 些 不 规范 的 有 损 压缩 TIFF 文件 。 

但 是 对 于 TIFF 格式 的 生命 力 ， 我 个 人 从 未 表示 怀疑 : 与 某 些 静 态 图 像 格 式 











































































































































































































不同 , TIFE 标准 一 直 在 与 时 俱 进 ， 不 断 将 先进 的 图 像 压 缩 技术 吸收 进来 ， 目 前 
已 经 支持 主流 的 CCTTT、 JPEG、LZW、ZIP 等 技术 ， 新 版 本 的 草案 中 则 计划 包 
含 对 JPEG 2000、JBIG2 等 先进 算法 的 支持 。 这 些 都 让 我 充满 期 待 。 





2、JBIG2 











这 种 格式 专门 针对 以 文字 为 主 、 黑 白 扫描 的 图 像 文 件 ， 属 无 损 压 缩 ， 据 称 比 
G4 压缩 算法 的 压缩 率 高 很 多 , 目前 已 成 为 ISO 标准 , PDF 从 1.4 版 (Acrobat 5.0) 
开始 允许 内 髋 JBIG2 図像 , 未来 的 TIFE 标准 也 打算 吸收 JBIG2 压缩 算法 。 






































JBIG2 的 原理 类 似 OCR: 先 对 图 像 进行 分 割 、 匹 配 ， 在 识别 出 子 图 像 〈 如 
文字 ) 后 ， 将 整 幅 图 像 看 作 子 图 像 及 其 位 置 的 集合 ， 存 储 时 只 存储 子 图 像 和 子 图 
像 出 现 的 位 置 ， 其 它 背 景 信 息 全 部 过 滤 掉 ， 因 此 不 仅 能 够 提供 很 高 的 压缩 比 ， 而 
且 能 够 实现 类 似 文字 检索 的 图 像 全 文 检索 。 












































昌 然 前 景 户 人 ， 但 是 我 个 人 认为 JBIG2 目前 还 存在 下 列 问题 : 








压缩 率 严 重 依赖 于 图 像 本 身 的 内 容 和 压缩 引擎 的 模板 表 。 对 于 字母 文字 来 
说 ， 字 母 总 数 毕 竟 有 限 ， 因 此 重 码 率 很 高 ， 自 然 压缩 比 也 很 高 ， 但 是 对 于 中 文 来 
说 ， 可 能 就 没 这 么 理想 了 。 不 过 从 我 试用 的 情况 看 ， 至 少 不 会 比 CCITT G4 的 压 
缩 比 差 。 

缺乏 必要 的 代码 支持 , 严重 阻碍 了 该 标准 的 推广 普及 ,与 其 它 图 像 格 式 不 同 ， 
目前 还 没有 一 个 开源 组 织 提 供 真正 的 JBIG2 压缩 支持 ， Markus Kuhn 提供 的 
JBIG-KIT 内 支持 JBIG1， 并 已 经 停止 更 新 ;，jbig2dec 只 提供 解码 代码 ( 俺 怀疑 
PDF 的 JBIG2 解码 代码 就 来 自 这 里 )， 不 提供 编码 代码 。 

3、DjVu 


































































































这 个 也 是 针对 扫描 电子 文档 的 ， 但 是 与 JBIG2 不 同 ， 针 对 的 是 彩色 、 图 文 
混 排 的 图 像 。 














DjVu 的 原理 是 先 对 图 像 进行 分 析 ， 然 后 按照 内 容 分 层 ， 包 括 背 景 层 、 文 字 
层 、 图 像 层 等 ， 对 不 同 的 层 使 用 不 同 的 压缩 算法 和 参数 ， 以 获得 最 好 的 图 像 质量 
和 压缩 比 。 

















与 JBIG2 不 同 ,DjVu 不 仅 有 djvuzone 组 织 在 维护 , 而且 有 开源 项 目 DjVuLibre 
作为 文 撑 ， 因 此 现在 不 仅 有 不 同 平台 下 的 编码 、 解 码 器 ， 连 查看 DjVu 文件 的 正 
插件 都 发 布 了 ， 未 来 应 该 大 有 希望 。 





























4、 双 選 PDF 











双 层 PDF 是 这 样 的 PDF 文件 : PDF 文件 的 每 一 页 都 包含 两 层 ， 下 层 是 从 纸 
质 文件 扫描 出 来 的 原始 图 像 ,上 层 是 用 OCR 软件 对 扫描 图 像 进 行 识 别 后 产生 的 
文字 结果 ， 但 字体 效果 设置 成 透明 。 这 样 用 户 在 阅读 PDF 文件 时 看 到 的 是 扫描 
图 像 ， 可 以 100% 保 留 原 始 版 面 效 果 《〈 包 括 公章 、 签 名 )， 在 需要 的 时 候 ， 又 可 以 

































































通过 透明 的 文字 信息 支持 选择 、 复 制 、 检 索 等 功能 。 











与 普通 PDF 文件 相 比 ， 双 层 PDF 能 够 同时 兼顾 视觉 效果 和 使 用 方便 性 ， 因 
此 在 国内 办 公 、 档 案 领 域 正 在 引起 重视 ， 我 个 人 相信 会 有 美好 的 “ 钱 途 ”。 




















显然 ， 双 层 PDF 的 内 容 检 索 、 内 容 复 制 与 OCR 识别 结果 有 直接 的 关系 。 先 
不 说 目前 国内 OCR 软件 的 识别 率 如 何 ， 最 关键 的 一 点 是 目前 没有 任何 一 个 中 文 
OCR 引擎 是 免费 、 开 源 的 (英文 的 则 有 gocr 等 一 批 )， 所 以 双 层 PDF 生成 工具 
也 都 不 是 免费 的 ， 而 是 “面向 企业 市 场 ” 我 相信 穷困 的 个 人 用 户 在 不 违法 的 情 
况 下 很 难 消 受 得 起 。 









































http://www.readfree.net/bbs/read.php7thd=292129 六 keyword= 


文本 PDG 文 件 名 构成 





作者 ; 马 健 


文本 PDG 的 构成 规则 为 : 
< 前 级 >< 起 始 页 号 >_< 页 数 >.pdg 





前 级 和 图 像 版 PDG 的 一 样 : 
I 书 名 页 
fow: 前 言 页 

!: 目录 页 
正文 页 没有 前 级 。 





例如 : 

bok1_1.pdg: 书 名 页 ， 内 含 1 页 

fow1_6.pdg: 前 言 页 ， 内 含 1 一 6 页 

!1_3.pdg: 目录 页 ， 内 含 1 一 3 页 

42_6.pdg: 正文 页 ， 起 始 页 42, 内 含 6 页， 下 一 个 文件 的 起 始 页 号 为 42 十 6 
二 48。 通 常情 况 下 正文 页 每 个 文本 PDG 文件 包含 6 页 ， 但 是 也 有 例外 ， 似 乎 与 
文件 大 小 有 关 

144 8.pdg: 正文 页 ， 起 始 页 144， 内 含 8 页 ， 下 一 个 文件 的 起 始 页 号 为 144 
十 8 二 152 

211_4.pdg: 正文 页 ， 起 始 页 211， 内 会 4 页， 下 一 个 文件 的 起 始 页 号 为 211 
十 4 二 215 

希望 有 人 能 够 据 此 写 一 个 生成 InfoRule.dat 的 软件 ， 免 得 总 有 人 问 为 什么 用 
Pdg2Pic 不 能 转换 文本 PDG。 




















http://www.readfree.net/bbs/read.php?tid=4477700&keyword= 


文本 PDG 转 PDF 





作者 : 马 健 


本 帖 被 nulc 设置 为 精华 (2007-06-24) 


声明 : 





1、 说 以 此 文献 给 喜欢 折腾 的 各 位 热血 人 士 ， 不 喜欢 折腾 的 就 不 必 看 了 。 

2、 既 然 喜 欢 折腾 ， 就 不 要 怕 有 麻烦。“ 既 当 姨 子 义 立 牌坊 ”的 好 事 也 许 有 ， 但 
不 一 定 会 轮 到 你 我 关上 。 

3、 本 文 欢迎 转载 ， 不 过 转载 的 时 候 请 注 明 原作 者 为 strnghrs。 





























文本 PDG 的 常规 转换 步 又: 





1、 下 载 ， 解 密 。 
2、 用 Pdg2Pic 解 成 散 页 PDF。 
3、 用 Adobe Acrobat Professional 合并 成 一 个 PDF。 








由 于 文本 PDG 
俗称 “裸奔 版 ” 与 
还 需 进 行 下 列 操作 

















通常 没有 封面 、 版 权 等 附属 页 ,因此 用 上 述 步骤 制作 的 PDF, 
“折腾 ”的 精髓 实在 相去 其 远 。 为 了 给 “裸奔 版 ” 穿 上 衣服 ， 








1、 下 载 图 像 版 封面 、 书 名 、 版 权 等 附属 页 ， 并 解密 。 

2、 往 下 载 到 的 文件 夹 里 扔 一 个 名 为 000001.pdg 的 文件 ， 别 管 文 件 内 容 是 什 
么 ， 只 要 是 一 个 没有 加 密 的 图 像 版 PDG 文件 即 可 ， 最 好 是 JPG (这 样 在 步骤 7 
中 比较 好 定位 )， 绝 对 不 能 用 T3 类 多 层 PDG。 











3、 用 Pdg2Pic : 














各 附属 页 转换 成 图 像 ,并 生成 FreePic2Pdf.itf、 FreePic2Pdf.txt、 





FreePic2Pdf_bkmk.txt。 





4、 打 开 前 面 用 文本 PDG 转换 、 合 并 出 来 的 PDF, 点 “文件 -> 属 性” 査 看 
页 面 宽度 ， 然 后 按照 下 列 公 式 折 算 成 FreePic2Pdf 中 的 宽度 : 
FreePic2Pdf 中 的 宽度 = 宽度 (厘米 数 ) 二 2.34X96 

例如 Acrobat 中 显示 的 页 面 宽度 为 13.510 厘米 , 则 计算 出 来 的 宽度 即 为 511。 

如 果 在 Acrobat 里 看 到 的 宽度 单位 是 英寸 ， 则 上 面 公式 中 的 二 2.54 可 以 省 略 ， 成 








FreePic2Pdf 中 的 宽度 = 宽度 〈 英 寸 数 ) X96 





5、 打 开 FreePic2Pdfitf, 閣 [Main] 段 MinWidth 的 值 改 成 上 面 计算 出 来 的 宽 
度 值 ， 这 样 转换 出 来 的 图 像 PDF 与 原文 本 PDF 的 页 宽 相同 。 

6、 将 FreePic2Pdfiitf 中 的 段 名 [TextPage]、[Bkmk] 分 别 改 成 [TextPage1]、 
[Bkmk1]， 这 样 生 成 图 像 版 PDF 时 就 不 会 把 书签 、 说 明 等 带 进 去 。 

7、 删 除 前 面 扔 进去 的 000001.pdg 转换 出 来 的 图 像 文件 ， 这 通常 是 最 后 一 个 
文件 ， 除 非 有 附录 页 。 

8、 用 FreePic2Pdf 将 转换 出 来 的 图 像 文 件 合并 成 一 个 PDF, 没有 书签 、 文 本 。 

9、 用 Adobe Acrobat Professional 将 图 像 、 文 本 版 PDF 合并 成 一 个 。 

10、 把 步骤 6 中 改变 的 段 名 再 改 回来 。 

11、 用 FreePic2Pdf 挂 书签 、 改 页 码 、 加 说 明 。 大 功 告 成 。 

文本 文件 合并 批 处 理 (可 以 将 1,2,3...9 补 0 后 ， 按 子 目 录 合 并 ) 


























文本 文件 合并 批 处 理 


由 于 1 p 想 将 下 载 的 txt 小 说 合并 后 copy 到 手机 中 看 ， 本 来 想 用 老 马 的 
textforever 进行 合并 的 ， 但 是 











textforever 不 能 处 理 文 件 名 长 度 不 一 致 的 数字 文件 名 ， 而 且 不 能 对 当前 目录 
中 的 各 个 子 目 录 批 量 合并 ， 于 是 写 











了 下 面 的 批 处 理 文 件 。 
1. 先 处 理 文件 类 似 下 面 的 文件 名 : 


1.txt 10.txt 11.txt 12.txt 2.txt 3.txt 4.txt 5.txt 6.txt 7.txt 8.txt 9.txt 





这 些 文件 合并 后 章节 的 顺序 不 对 ， 需 要 将 1,2,3,..9 的 文件 名 前 社 一 介 0, 格 
文件 名 排序 成 下 面 的 样子 : 











01.txt 02.txt 03.txt 04.txt 05.txt 06.txt 07.txt 08.txt 09.txt 10.txt 11.txt 12.txt 








2. 然后 分 别 将 当前 目录 下 的 每 个 子 目 录 中 txt 文件 合并 到 当前 目录 中 , 并且 
以 子 目 录 名 命名 文件 名 














具体 用 法 : 将 下 面 的 文字 复制 到 一 个 文本 文件 中 , 再 将 文件 保存 成 .bat 文件 ， 
然后 将 .bat 文件 复制 到 需要 处 理 的 目录 运行 。 














@echo off 
cls 


echo "更 改 文件 名 ， 将 1 一 9 的 文件 名 前 社 0" 


echo "注意 : 此 项 操作 只 能 处 理 1-9 的 文件 名 " 
Dause 


for 7 %%iin (.) do for 1 %%j in (1.1.9) do ren "%%~dpni\%%]}.txt" 0% の j.txt 





echo "将 1 工 一 9 的 文件 名 前 社 0 完成 " 
echo "文件 合 井 井 始 " 
Dause 


for /r %%iin (.) do copy "%%~dpni\*.txt" "%%~dpi%%~ni.txt" 





echo "文件 合并 结束 " 


pause 


http://www.readfree.net/bbs/read.php7thd=275822 六 keyword= 


给 清晰 版 PDG 无 损 减 肥 


作者 : 马 健 














清晰 版 虽 好 , 不 过 收集 多 了 也 占 地 方 , 所 以 我 认为 讨论 一 下 怎么 给 它 减 减肥 








还 是 很 有 必要 的 。 男 外 收集 清晰 版 的 目的 本 来 就 是 为 了 质量 , 所 以 一 切 有 损 的 方 














接 去 下 载 快 速 版 还 更 方便 。 





讨论 之 前 ， 首 先 要 从 理论 上 解决 一 个 问题 : 





法 都 不 在 本 文 讨论 之 列 ， 包括 缩小 图 像 尺 寸 等 ,如果 您 言 欢 这 样 的 方法 ,建议 直 

















清晰 版 能 不 能 再 被 无 损 压 缩 ? 





我 的 回答 是 : 当然 能 ， 而 且 压缩 空间 还 不 小 ， 上 只 不 过 技术 有 点 复杂 。 


我 的 理由 如 下 : 





对 于 清晰 版 来 说 ，T1、T2、T3 的 存储 格式 分 别 为 





Tl: CCTTT 
T2: JPG 
T3: CCTTT G4 十 JPG 





首先 说 CCTTT G4, 这 个 只 要 把 它 压缩 成 DjVu, 至 少 可 以 砍 掉 20% 的 文件 长 
度 ， 而 且 还 是 无 损 ， 如 果 对 于 字母 文字 页 采用 有 损 DjVu 还 能 压 掉 更 多 。 











和 图 实在 没有 什么 办 法 可 想 ， 





其 次 说 JPG。T3 里 的 JPG 指 








但 是 其 实 大 多 数 尺 





寸 令 人 咬牙 切 齿 的 清晰 版 ， 都 是 T2 格式 的 单 层 JPG。 対 T2 JPG 的 减肥 办 法 ， 就 





是 把 它 分 解 成 T3， 文 字 部 分 用 DjVu, 大 




















图 无 损 切 制 到 最 小 尺寸 ， 还 是 用 JPG。 


所 以 从 理论 上 说 , 对 清晰 版 无 损 减肥 是 可 以 做 到 的 , 不 过 有 几 个 技术 问题 需 




















要 解决 : 

1、 将 CCITT G4 转换 成 DjVu， 并 封装 成 PDG。 这 个 好 办 ， 转 换代 码 是 现成 
的 , PDG 文件 00H 格式 也 没有 悬念 ， 直 接 把 DjVu 数据 流 写 在 文件 头 后 面 就 可 
以 了 。 





2、 将 T2 转换 成 T3。 这 个 最 难 





























将 插图 与 文字 切割 开 。 对 于 


搞 OCR 的 人 来 说 ， 这 个 是 必须 过 的 第 一 关 ， 其 它 人 可 能 就 会 过 不 去 ， 至 少 我 现 
在 就 不 知道 怎么 过 。 

3、 在 将 插图 识别 出 来 后 , 将 插图 从 整 页 JPG 中 无 损 切 制 下 来 。 这 个 也 好 办 ， 
网 上 有 开源 的 ， 网 站 为 http:Wjpegclub.org。 




















如 前 所 述 , 减肥 的 理论 和 方法 都 已 经 具备 了 , 缺 的 就 是 将 插图 与 文字 切割 开 
的 方法 和 代码 。 由 于 种 种 原因 , 我 不 能 去 钻研 这 种 技术 , 如 果 有 人 能 够 无 偿 提 供 ， 
并 且 愿 意 授 权 大 家 无 偿 使 用 ， 我 将 表示 热烈 的 欢迎 ! 除 此 之 外 ，PDG 和 DjVu 部 
分 我 相信 我 还 能 搞定 。 






































当然 减肥 也 不 是 没有 代价 的 :超星 浏览 器 打开 DjVu 格式 的 文件 , 会 比 CCTTT 
G4 的 稍微 慢 那 么 一 点 点 。 




















http://www.readfree.net/bbs/read.php?tid=4532176&keyword= 


关于 去 除 JPG 水 印 后 质量 下 降 的 问题 


作者 : 马 健 











以 前 只 用 ComicEnhancer Pro 的 減色 功能 , 确实 有 点 问题 。 现 在 建议 先 用 “高 
亮度 ”功能 完全 去 掉 水 印 ， 然 后 再 用 “ 减 色 ” 以 减 小 文件 体积 ， 当 然 “ 减 色 ” 与 
“曲线 ”等 合用 ， 也 可 以 改善 “ 减 色 ” 的 效果 。 详 见 ; 

http://readfree.net/bbs/read-htm-td-4512366.html 








http://www.readfree.net/bbs/read.php7thd=4469785 層 keyword= 
关于 DjVuToy 合并 文件 


短信 误 删 除了 ， 所 以 在 这 里 回答 。 








合并 后 文件 只 能 显示 3 页 的 原因 : 00000003.djvu 末尾 多 了 一 些 垃圾 数据 ， 
导致 合并 后 ，3 页 之 后 的 文件 结构 大 乱 。 











解决 办 法 : 
办 法 一 : 用 收费 版 DjVuToy 的 “文件 导出 ”功能 ， 导 出 00000003.djvu 的 各 
层 , 得 到 00000003_Sjbz.djvu, 将 此 文件 更 名 为 00000003.djvu, 窗 盖 原文 件 即 可 。 
办 法 二 : 用 免费 版 DjVuToy 的 “文件 合并 ”功能 ， 单 独 对 00000003.djvu 进 
行 合并 《将 此 文件 复制 到 一 个 空 文件 夹 ， 然 后 合并 此 文件 夹 )， 将 合并 后 的 文件 

















更 名 为 00000003.djvu， 履 盖 原 文件 即 可 。 


http://www.readfree.net/bbs/read.php?tid=247450&keyword= 


吵 醒 文件 加 密 方式 说 明 [ 车 大 师 开讲 ] 


作者 : cheming 








可 以 考虑 将 下 面 内 容 加 进去 : 
吵 醒 文件 加 密 方 式 说 明 
作者 : Che Ming 

版本 : v1.4 

时 间 : 2006/09/24 

历史 : 
==== 1.4 ニニ ニニ 

[+] PDG v1 Support 
[-] 错别字 :) 








ニー ニー 3 ニー ニニ 

[+] Fix 1xH Bugs 
一 一 一 区 一 

[+] 6xH More Detail 


二 二 二 二 1.1 二 二 二 二 


[+] 28H Support 

[+] 6xH Support 

==== 1.0 ==== 

2006/07 First Release. 

[欢迎 转载 ， 转 载 时 请 保留 作者 及 版 本 信息 ] 

说 明 : 此 文 提 及 的 吵 醒 文件 为 48 48 开头 的 文件 〈 即 PDG v1, v2 格式 ), 
其 他 诸如 FF D8 开头 的 标准 JPG， 以 及 PDE TXT 等 格式 不 在 此 问题 讨论 范 
用 。 











文件 OxOF 处 字 节 代表 此 类 吵 醒 文 件 的 格式 ， 其 中 : 
00H 最 原始 的 格式 ， 
正文 数据 分 为 : 
ColorDepth = 1 代表 単色 CCTTT G3 2D 压缩 图 片 格 式 
[OriginalType=00] 
=18h 代表 24 位 色 真 彩 图 像 , 正文 数据 通常 是 JPG (对 应 加 密 后 的 
格式 为 04H) [OriginalType=4A] 





AT&TFORM 代表 djvu 原始 数据 格式 (对 应 加 密 后 的 格式 为 05H) 
[OriginalType=44] 
%PDF% 代表 PDF 原始 数据 格式 (数据 采用 Zlib 算法 压缩 ) 


[OriginalType=46] 

01H 最 早 的 加 密 和 雏形 ， 简 单 的 对 数据 区 进行 Block Size = 8 的 分 组 加 密 ， 
加 密 方法 就 是 8 个 字 节 一 组 与 3.141592' 进行 XOR 操作 。 

02H 开始 采用 强度 稍 高 的 加 密 算法 , 对 PDG Header 中 的 KeyData 字段 进 
行 MDS 运算 ， 得 到 KEY 之 后 ， 调 用 TEA 算法 对 数据 区 进行 分 组 加 密 。 

03H 加 密 方式 同上 , 在 MDS 基础 上 , 将 HASH 与 'SUPERSTAR4PDG2.0' 
的 头 8 个 字符 进行 XOR 操作 作为 KEY。 

04H JPG 经 过 加 密 形 成 ， 解 密 后 可 以 生成 00H 格式 或 者 JPG 格式 。 加 密 
方式 同 02H, 将 HASH 与 ' SSREADER4PDG3.71' 的 头 8 个 字符 进行 XOR 操 
作 作为 KEY。 

05H djVu 原始 格式 加 密 而 成 ， 解 密 后 可 以 生成 00H 格式 。 加 密 方式 同 
02H, 将 HASH 与 'e#fgF9%3*' 进行 XOR 操作 作为 KEY。 

10H 00H 基础 上 简单 将 PDG Header 中 的 Width, Height 字段 加 密 。 

11H 00H 基础 上 将 数据 部 分 字 节 加 密 。Group1 

12H 00H 基础 上 将 数据 部 分 字 节 加 密 。Groupl 

13H 00H 基础 上 将 数据 部 分 字 节 加 密 。Groupl 

14H 00H 基础 上 将 数据 部 分 字 节 加 密 。Groupl 

1SH 00H 基础 上 将 数据 部 分 字 节 加 密 。Group2 

16H 00H 基础 上 将 数据 部 分 字 节 加 密 。Group2 

17H 00H 基础 上 将 数据 部 分 字 节 加 密 。Group2 

18H 00H 基础 上 将 数据 部 分 字 节 加 密 。Group2 

19H 00H 基础 上 将 数据 部 分 字 节 加 密 。Group3 






























































































































































1AH 00H 基础 上 将 数据 部 分 字 节 加 密 。Group3 
1BH 00H 基础 上 将 数据 部 分 字 节 加 密 。Group3 
1CH 00H 基础 上 将 数据 部 分 字 节 加 密 。Group3 
以上 11H-1CH 的 加 密 算 法 为 私有 加 密 算 法 ， 分 为 三 组 ， 分 别 是 Group1,2,3， 
每 一 组 的 加 密 位 置 及 加 密 字 节 数 不 同 。 
1EH 没 见 过 实物 (未 进行 过 实际 验证 )， 但 在 代码 中 存在 解密 算法 ， 加 密 算 
法 为 DEAL。 
28H 为 吵 醒 用 户 自 行 通过 SSREADER 的 新 建 -〉 扫 描 功 能 制作 的 格式 。 通 
过 TEA 算法 对 10H-2FH 进行 加 密 得 到 32 字 节 的 Key (由 于 吵 醒 采用 的 
DEAL 算法 都 只 使 用 128bit 的 Key, 所 以内 有 共 16 个 字 节 生效 )， 之 后 采用 
DEAL 算法 对 数据 区 进行 隔行 加 密 。 
6xH 系列 为 正版 有 卡 用 户 下 载 加 密 而 成 。 此 系列 加 密 强 度 最 强 ， 复 杂 度 超 
平 想象 ， 竟 然 综合 采用 了 TEA, Blowfish, RSA, DEAL, IDEA， 
DES 等 加 密 算 法 ， 计 算 KEY 的 时 候 ， 使 用 了 MD5, SHA1 等 算法 。 估 计 
吵 醒 会 用 的 加 密 算法 全 部 齐 上 阵 ， 加 密 算法 应 用 大 全 啊 。 
此 系列 共有 64 65 66 67 68 五 种 格式 ， 特 点 是 Header 和 数据 区 同时 加 密 : 
Header 加 密 方 法 : 
1.64 65 使用 TEA 算法 并 结合 usermame 生成 Key, 利用 DEBAL 算法 
加 密 ， 加 密 长 度 为 60h。 
2. 66 67 68 使用 TEA 算法 但 不 结合 username 生成 Key, 利用 DEAL 
算法 加 密 ， 加 密 长 度 为 10h。 
数据 区 加 密 方法 : 
1. 65 使用 SHA1 算法 对 未 解密 前 的 Header 进行 计算 ， 同 时 与 
username 进行 操作 得 到 Key。 
2. 64 66 67 68 使 用 MDS 算法 对 未 解密 前 的 Header 进行 计算 得 到 
Key。 

























































































































































































得 到 Key 之 后 ,对 于 65 格式 , 采用 IDEA 加 密 算法 进行 加 密 ， 其 它 格 
式 仍 采用 DEAL 算法 进行 加 密 。 

6xH 系列 的 解密 必须 有 HDDID 参与 , 它 是 由 服务 器 根据 用 户 的 HDDKey 
计算 并 返回 的 ， 相 关 信 息 保存 在 注册 表 ssreaderdata 中 。 

该 数据 采用 Blowfish 加 密 , 解密 之 后 regcode 字段 仍然 是 加 密 的 ， 其 中 就 
包含 HDDID 等 重要 信息 ， 解 密 这 部 分 数据 ， 需 要 使 用 

RSA 公 钥 解密 算法 。 















































AAH 镜像 站 点 采用 的 加 密 格 式 ， 加 密 算 法 为 DEAL。 此 格式 如 果 用 正版 
SSREADER 下 载 ， 会 被 完全 破坏 ， 并 将 格式 变 为 FFH。 

ABH 镜像 站 点 采用 的 加 密 格式 ， 加 密 算法 为 DEAL。 此 格式 如 果 用 正版 
SSREADER 下 载 ， 会 被 完全 破坏 ， 并 将 格式 变 为 FFH。 

ACH 镜像 站 点 采用 的 加 密 格 式 ， 加 密 算 法 为 DEAL。 此 格式 如 果 用 正版 
SSREADER 下 载 ， 会 被 完全 破坏 ， 并 将 格式 变 为 FFH。 

上 述 AxH 系列 的 Key 的 计算 方法 不 同 , 其 中 AAH 最 简单 ,ABH 的 Key 
计算 过 程 需要 PDG Header 中 的 Width, Height 参与 , ACH 的 Key 虽然 不 需 
要 Width，Height 参与 ， 但 是 最 终 会 修改 Width 和 Height 两 个 字段 。 加 密 方 
式 采 用 隔行 加 密 。 












































除了 上 述 加 密 格式 之 外 ，PDG 文件 还 文 持 一 种 基于 密码 保护 的 加 密 方式 ， 
即 所 谓 的 ServerID， 不 过 目前 很 少见 到 。 加 解 算法 同样 是 DEAL， 只 不 过 计算 
Key 的 方法 略 有 区别 , 同时 PDG Header 的 i 




















Tug ve br 

Width 字段 被 修改 。 此 方法 理论 上 可 以 应 用 在 各 种 格式 之 上 , 任何 格式 在 解 
密 之 前 ， 必 须 先 去 除 ServerID 保护 ， 再 用 相应 的 算法 进行 解密 。 
注意 ， 上 述 提 到 的 TEA、SHA1、Blowfish、DEAL 等 加 密 算法 都 被 吵 醒 私 
目 非法 《肯定 未 经 原作 者 授权 〉 算 改过 ， 不 能 简单 用 标准 算法 套用 。 

PDG V1 









































此 类 文件 的 文件 名 为 下 列 格式 : 100.001, 100.002, .…… 





此 类 文件 为 早期 PDG 格式 ， 等 同 于 V2 的 00H， 加 密 方 法 只 有 一 种 : 根 
据 0x07 位 置 的 值 ， 在 数据 区 0xB8 位 置 之 后 插入 1 个 或 者 2 个 字 节 。 
上 述 分 析 基 于 对 PDG2.DLL 的 代码 研究 ， 如 有 不 对 之 处 ， 欢 迎 佐 正 。 
Che Ming 
































http://www.readfree.net/bbs/read.php?tid=4476498&keyword= 
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关于 文本 超星 的 字体 





有 不 少 人 在 问 为 什么 有 些 文本 超星 在 SSREADER 里 看 到 的 是 宋体 ， 在 
Acobat 里 看 到 的 是 黑体 ， 其 实 原因 很 简单 :双方 对 字体 的 解释 不 同 。 




















具体 解决 办 法 : 

1、 用 Pdg2Pic 将 文本 超星 转换 成 散 页 PDF。 

2、 用 Adobe Acrobat Professional 将 散 页 PDF 合并 成 一 个 PDF。 合并 的 时 候 ， 
Acrobat 会 自动 对 相同 的 字体 对 象 进行 合并 ， 保 证 下 面 的 更 改 只 需 更 改 一 处 ， 这 
点 非常 重要 ， 用 其 他 工具 合并 的 不 敢 保证 。 上 





























3、 用 UltralEdit32 以 十 六 进 制 模式 打开 合并 后 的 PDF， 搜索 ASCII 字符 串 
“/Flags 4”， 然 后 将 其 中 的 “4” 改 成 “6” 存盘 退出， 用 Acrobat 打开 ， 黑 体 
就 变 成 宋体 了 。 

其 实 从 我 个 人 的 观点 来 说 ， 我 认为 黑体 看 起 来 要 比 宋体 更 舒服 。 











本 文 如 需 转载 ， 请 注 明 原 作者 : strnghrs 





scdymy 补充 : 看 过 本 贴 后 就 能 理解 老 马 的 pic2pdf 软件 中 ,为 什么 没有 何必 
文本 pdf 的 功能 ,转换 文本 的 pdg 最 好 的 效果 是 pdg2pic, 然后 使 用 Adobe Acrobat 
Professional 进行 合并 。 
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对 bookinfo.dat 的 说 明 





现在 论坛 推出 的 下 载 工 具 五 花 八 门 ， 但 是 有 不 少 都 忽视 了 bookinfo.dat 的 生 
成 ， 因 此 有 必要 说 明 一 下 这 个 文件 的 重要 性 。 














一 、 标 准 bookinfo.dat 

SSREADER 生成 的 bookinfo.dat 包含 下 列 字 段 : 书 名 、 作 者 、 页 数 、SS 号 、 
出版 日 期 。 

PdgThumbViewer 根据 “页 数 ” 检 查 图 像 版 PDG 文件 是 否 缺 页 ， 其 他 一 些 软 
件 也 会 从 这 几 个 字段 提取 信息 ， 生 成 书籍 管理 信息 。 因 此 只 要 有 可 能 ， 任 何 第 三 
方 下載 工具 生成 的 bookinfo.dat 至 少 应 该 包括 这 几 个 标准 字段 ， 并 且 字 段 名 称 不 


能 错 。 




















二 、 扩 展 bookinfo.dat 

SSREADER 生成 的 bookinfo.dat 内 容 比 较 朴 素 , 缺少 “出 版 社 ” 等 有 用 信息 ， 
因此 某 些 第 三 方 下 载 工具 可 以 根据 lr 链接 ， 生 成 扩展 信息 ， 包 括 : 丛书 名 、 尺 
寸 、DX 号 、 原 书 定 价 、 中 图 法 分 类 号 、 出 版 社 、 主 题词 、 参 考 文件 格式 、 内 容 
提要 、 作 者 简介 等 。 

Pdg2Pic 会 按照 书 名 、 作 者 、 参 考 文 件 格 式 、 主 题词 填写 FreePic2Pdf 文件 [Imfo] 
段 中 的 He、Author、Subject、Keywords, FreePic2Pdf 再 据 此 填写 PDF 的 Document 
Properties， 包 括 Title、Author、Subject、Keyword。 


























UnicornViewer v0.08+ 的 “PDG 文件 查找 ”功能 可 以 在 bookinfo.dat 中 查找 指 
定 的 关键 字 ， 因 此 bookinfo.dat 的 内 容 越 丰 富 ， 可 供 搜 索 的 东西 就 越 多 。 对 图 像 
版 PDG 来 说 ， 任 何 有 用 的 文本 信息 都 是 宝贵 的 。 









































另外 在 lr 页 面 中 ,“ISBN 号 ”与 “中 图 法 分 类 号 ”混在 一 起 ， 但 是 从 书籍 
管理 的 角度 出 发 ， 这 两 个 字段 应 该 分 开 ， 一 般 图 书馆 采用 的 也 是 中 图 分 类 。 





下 面 是 SSREADER 生成 的 bookinfo.dat 的 例子 : 
[General Information] 

书 名 = 湘 鄂 乡土 沫 

作者 = 陈 绪 末 主编 

页 数 =96 

SS 号 =11592399 

出版 日 期 =2006 年 05 月 第 1 版 





下面 是 某 第 三方 下 裁 工具 生成 的 bookinfo.dat: 
[General Information] 
书 名 = 地 心 游记 
从 书 名 = 几 尔 纳 选 集 
作者 =( 法 ) 凡 尔 纳 (J.VERNE) 著 杨 完 益 , 闻 时 清 译 
页 数 =239 
尺寸 =19CM 
DX 号 =000000916164 
SS 号 =10338901 
出版 社 = 中 国 青 年 出版 社 
主题 词 = 长 篇 小 说 (地 点 : 法 国 年 代 : 近代 ) 
ISBN 号 =CN 
出 版 日 期 =1959 
原 书 定价 = 站 0.64 
中 图 法 分 类 号 =I565.44 
参考 文件 格式 =( 法 ) 几 尔 纳 J.VERNE) 著 杨 完 益 , 闻 时 清 译 . 地 心 游记 .中 国 青 
年 出 版 社 ,1959. 
内 容 提 要 = 书 名 原文 :Voyage au centre 
作者 简介 = 
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对 文本 PDG 格 式 的 争论 可 以 暂停 了 





作者 : 马 健 





看 到 各 位 忽而 不 舍 地 对 文本 PDG 进行 争论 ， 估 有 几 句 话 不 吐 不 快 : 














一 、 到 目前 (2006.11.05) 为 止 ， 超 星 没 有 专门 针对 文本 PDG 推出 任何 新 的 
加 密 格 式 。 

文本 PDG， 其 实 就 是 先 把 PDF 文件 用 zlib 压缩 ， 然 后 加 密 、 打 包 成 原 有 的 
0xH、1xH、AxH、6xH 等 格式 。 因 此 请 不 要 一 们 到 自己 打 不 开 的 PDG 文件 ， 就 
满 世 界 喷 喷 说 超星 又 推出 了 新 格式 。 





























二 、 合 到 打 不 开 的 PDG 文件 ， 请 先 自我 检查 一 下 原因 。 

目前 可能 的 原因 包括 ( 井 非 全集 , 次 迎 社 充 ): 

1、 超 星 浏 览 器 版 本 不 够 新 。 早 期 超星 浏览 器 不 文 持 文本 PDG。 

2、 试 图 在 自己 机 器 上 打开 别人 下 载 的 6xH 文件 。 

3、 文 件 不 完整 。 从 目前 报告 的 情况 看 ， 这 是 最 常见 的 原因 。 

到 目前 为 止 ， 唯 一 可 以 批量 检查 文本 PDG 文件 是 否 完 好 的 软件 是 
PdgThumbViewer v0.05 及 其 以 上 版 本 。 它 的 局 限 是 不 能 检查 6xH 格式 文件 ， 奋 
到 这 种 情况 请 先 用 Pizza 解密 。 

ee 

、 服 务 器 上 的 文件 就 是 坏 的 。 这 种 情况 不 是 没有 ， 不 过 概率 比较 小 。 解 决 
hd 或 者 自己 找 书 或 求人 找 书 然后 扫 瞄 。 

2、 下 载 时 由 于 网 络 或 技术 或 软件 的 原因 ， 造 成 文件 没有 下 完 。 如 果 是 网 络 
原因 ， 可 以 换个 时 间 重 新 下 载 。 如 果 是 其 它 原因 ， 只 能 苗 练 内 功 了 。 






























































三 、 只 要 文本 PDG 文件 是 完好 的 ， 就 可 RR PDF 文件 。 
前 面 说 过 ， 文 本 PDG 其 实 就 是 从 PDF 文件 来 的 ， 只 要 先 解密 ， 然 后 用 zlib 
解压 缩 ， 即 可 获得 原始 PDF 文件 。 


























用 Pdg2Pic 可 以 将 文本 PDG 转换 成 PDF， 并 且 按 照 顺 序 重 新 编号 ， 便 于 用 
Acrobat 或 其 它 工 具 进行 合并 。 除 了 要 求 原 始 PDG 文件 完好 无 损 外 ，Pdg2Pic 还 
有 下 列 局 限 : 

不 能 转换 6xH 格式 ， 碰 到 这 种 情况 请 先 用 Pizza 进行 解密 。 














2、 必 须 有 对 应 的 TnfoRule.dat 文件 ， 否 则 不 知道 PDG 文件 的 顺序 。 

除 此 之 外 任何 说 Pdg2Pic 转换 文本 PDG 不 成 功 的 ， 都 与 使 用 方法 有 关 ， 请 
认真 、 仔 细 阅 读 它 的 使 用 说 明 。 

Pizza 在 解密 文本 PDG 时 ， 其 实 已 经 把 PDG 转换 成 PDF 了 ， 只 不 过 文件 扩 
展 名 没有 改过 来 ， 可 以 自己 手工 改 ， 也 可 以 用 Pdg2Pic 通过 InfoRule. dat 自动 改 。 
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息 淡 zip、rar 文 件 格式 





作者 : 马 健 





声明 : 本 文 并 非 学 术 论 文 , 所 述 内 容 仅 为 我 个 人 的 看 法 和 体会 ， 不具 任 何 权 
威 性 ， 仅 供 有 兴趣 的 人 参考 ， 但 是 如 果 您 不 具有 足够 的 鉴别 能 力 ， 建 议 纪 看， 以 
免 误 导 。 

一 、 目 录 表 (TOC) 与 分 卷 (Volume) 

抛 开 压 缩 算 法 不 谈 ， 我 认为 zip、rar 在 文件 格式 上 最 大 的 差异 就 在 目录 表 

(Table of Contents, TOC): zip 有 TOC， 而 rar 没 有 。 

TOC 这 个 词 其 实 是 从 出 版 界 借用 过 来 的 , 指 的 就 是 每 一 本 书 正文 前 面 的 “ 目 
录 ” 它 的 作用 地 球 人 都 知道 ， 如 果 想 快速 找到 书 中 某 一 内 容 ， 可 以 先 查 TOC, 
然后 按照 TOC 指明 的 页 码 直接 翻 即 可 。 

在 纸 质 书 里 TOC 是 印刷 出 来 的 一 张 表 ， 而 在 电子 文件 里 则 是 由 结构 化 数据 
构成 的 一 张 表 , 它 的 目的 同样 是 为 了 快速 定位 : 如 果 想 找 文 件 中 的 某 一 内 容 ， 可 
以 先 查 TOC， 知 道 感 兴趣 的 内 容 在 文件 的 什么 位 置 ， 直 接 跳 过 去 就 行 了 。 最 常 
见 的 运用 就 是 avi、 rm 等 多 媒体 文件 : 播放 的 时 候 经 常 有 人 在 播放 条 上 点 来 点 去 
跳 着 看 〈 即 “随机 访问 ”)， 如 果 没 有 TOC， 在 长 达 几 百 兆 的 文件 里 来 回 定 位 会 
慢 死 。 

具体 到 zip 文件 里 ，TOC 是 放 在 文件 尾部 的 一 张 表 ， 里 面 列 出 了 zip 包 中 每 
一 條 文件 的 属性 (文件 名 、 基 度 等 ) 和 在 zip 包 中 的 存放 位 置 。 如 果 需 要 随机 访 
问 zip 包 中 的 某 一 个 文件 ， 只 需 在 TOC 里 找到 这 个 文件 的 存放 位 置 ， 直 接 跳 过 
去 即 可 。 

而 RAR 文件 里 则 没有 TOC， 在 文件 头 之 后 所 有 文件 按 顺 序 连续 存放 。 

这 种 差异 造成 的 结果 就 是 : 随机 访问 时 zip 比 rar 快 ， 而 顺序 访问 时 rar 比 
zip 快 。 

所 谓 随机 访问 ， 就 是 前 面 说 过 的 随机 访问 压缩 包 中 某 个 指定 的 文件 。 举 一 个 
简单 的 例子 : 一 本 反 编 译 或 下 载 到 的 网 页 电子 书 ， 有 大 量 HTML、 图 像 、css、js， 
然后 打 成 压 缩 包 。 现 在 要 求 在 不 解 包 的 情况 下 访问 其 中 的 页 面 : 可以 想 象 , 打开 
每 个 HTML 页 面 的 时 候 ， 它 所 附带 的 图 像 、css、js 等 文件 可 能 随机 分 布 在 整个 


























































































































压缩 包 里 ， 如 果 没 有 TOC， 碍 找 每 个 文件 的 时 候 都 要 从 头 开始 找 ， 将 会 有 多 慢 。 
所 以 各 位 可 以 理解 为 什么 jar 包 就 是 标准 zip 包 , 而 我 也 只 用 zip 格式 保存 反 编 译 
出 来 的 电子 书 、 漫 画 、PDG 书 等 一 切 可 能 需要 随机 访问 的 东西 。 
所 谓 顺序 访问 ， 就 是 将 整个 压缩 包 从 头 解 到 尾 。 在 这 方面 RAR 具有 天然 的 
优势 。 而 且 为 了 节省 WinRAR 列 文件 的 时 间 ， 对 于 单个 RAR 我 一 般 都 直接 通过 
右键 菜单 解压 缩 ， 很 少 双击 压缩 包 打 开 再 解压 。 解 多 个 RAR 时 当然 都 用 
BatchUnRar。 
由 于 rar 的 原作 者 已 经 去 世 ， 造 成 这 种 差异 的 确切 原因 我 相信 已 不 可 考 ， 但 
我 个 人 猜测 可 能 与 DOS 时 代 的 备份 软件 之 争 有 关 : 在 DOS 时 代 , 电脑 硬盘 不 像 
现在 这 样 奢 侈 ，20MB 就 算 很 大 了 。 这 样 的 容量 用 两 盒 软盘 即 可 备份 ， 备 份 成 
本 相对 数据 本 身 的 价值 来 说 非常 低廉 。 因 此 在 DOS 时 代 ， 很 多 公司 和 机 构 都 制 
定 有 定期 硬盘 备份 政策 ， 以 免 因 为 人 为 或 非 人 为 的 因素 (早期 硬盘 可 没有 如 今 
可 靠 ) 而 造成 不 可 挽回 的 数据 损失 。 在 备份 软件 方面 ， 虽 然 微软 已 经 随 DOS 提 
供 了 Backup/Restore 工具 ， 但 是 他 们 基本 不 具备 数据 压缩 能 力 ， 因 此 在 压缩 软件 
中 提供 备份 功能 ， 就 成 为 DOS 时 代 的 一 个 时 尚 。 由 于 DOS 时 代 的 备份 介质 多 为 
软盘 ， 因 此 压缩 软件 的 备份 功能 其 实 就 转化 成 如 今 很 常见 的 一 个 功能 : 分 卷 压 
缩 功 能 ， 即 按照 软盘 容量 进行 分 卷 压缩 ， 然 后 将 分 卷 压 缩 文件 备份 (Backup) 到 
软盘 ， 需 要 的 时 候 再 解压 ， 或 恢复 (Restore) 到 便 盘 。 






















































































































































































DOS 时 代 最 有 名 的 zip 工具 是 pkzip, 出現 得 比 DOS 版 的 RAR 早 。 在 分 巻 
压缩 时 ，pkzip 按照 zip 文件 规范 ， 将 TOC 存放 在 最 后 ， 即 存储 在 最 后 一 卷 ， 由 
此 带 来 如 下 问题 : 





























1、 恢 复 时 ， 每 解压 一 张 盘 ， 都 要 先 将 最 后 一 张 盘 插 进 去 一 次 ， 读 一 次 TOC。 
2、 只 要 最 后 一 张 盘 上 的 TOC 坏 了 , 就 算 其 它 盘 都 是 好 的 , 也 不 能 正常 解压 。 























这 两 个 缺点 , 尤其 是 第 一 个 缺点 实在 是 太 自 名 昭著 了 ， 因 此 当时 出 现 了 非常 
强烈 的 改革 呼声 。 在 这 个 关键 时 刻 ,，DOS 版 的 RAR 出现 了 : 不 仅 压 缩 率 比 pkzip 
高 (这 点 在 DOS 时 代 非 常 重要 ， 毕 竟 软 盘 又 贵 容量 又 小 )， 而 且 由 于 吸取 了 当时 
对 zip 格式 的 批评 ， 取消 了 TOC， 因 此 : 







































1、 在 恢复 分 卷 压缩 的 备份 文件 时 ， 不 需要 频繁 插入 带 有 TOC 的 分 卷 ， 按 顺 
序 换 盘 即 可 。 
2、 即 使 茶 个 分 卷 损坏 ， 也 可 以 跳 过 ， 从 完好 的 分 卷 再 开始 解压 。 

















由 于 这 些 原因 (当然 还 有 其 它 原 因 )，RAR 推出 后 迅速 取得 了 成 功 ，pkzip 
在 DOS 时代 就 开始 流失 用 户 , 到 Windows 时 代 基 本 消 声 匿 迹 。 在 Windows 时 代 
推出 的 Winzip， 则 彻底 放弃 了 分 卷 压 缩 功 能 〈zip 格式 永 近 的 痛 ? )。 而 从 我 看 
到 的 源 自 WinRAR 的 UnRAR 源 代码 来 看 ， 现 在 WinRAR 的 解压 思路 明显 还 是 
把 文件 按 顺 序 从 头 解 到 尾 ， 看 来 当年 备份 /恢复 工具 之 争 的 影响 ， 还 真是 深远 。 
























































二 、 国 实 《〈solid) 压缩 方式 








在 压缩 算法 方面 , 我 觉得 rar 格式 最 特色 的 是 回 实 (solid) 奈 缩 方 式 。WinRAR 


v3.42 的 帮助 文件 中 对 固 实 压缩 的 说 明 如 下 : 

固 实 压缩 文件 是 RAR 的 一 种 特殊 压缩 方式 存储 的 压缩 文件 , 它 把 压缩 文件 
中 的 全 部 文件 都 当成 一 个 连续 数据 流 来 看 待 。 

这 段 说 明 其 实 揭 示 了 固 实 压缩 格式 能 够 提高 压缩 比 的 奥秘 : 数据 压缩 的 基础 
是 “重复 ” 例如 aaaabbb 这 个 字符 串 ， 里 面 就 有 重复 ， 如 果 表 示 为 a4b3, 看 起 
米 是 0 “数据 压缩 “重复 ”是 一 个 具有 相对 意义 的 概念 ,在 
范围 内 看 起 来 没有 重复 , 或 重复 不 多 的 数据 ， 把 范围 扩大 ,说 不 定 就 能 找到 
复 的 数据 了 ， 这 就 是 固 实 压缩 的 奥秘 。 
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更 多 








举 一 个 简单 的 例子 : 用 zip 和 普通 rar 压缩 一 堆 jpg 文件 ， 很 难 压 下 去 ， 但 
是 用 固 实 压缩 方式 的 rar 就 可 以 ， 其 原因 就 在 于 : jpg 文件 本 身 已 经 是 压缩 格式 
了 , 单个 jpg 文件 里 很 难 再 找到 可 利用 的 重复 数据 ,因此 不 论 是 用 zip 还 是 普通 
的 rar 都 很 难 再 压缩 ， 因 为 他 们 都 将 需要 压缩 的 文件 分 隅 开 来 一 个 一 个 处 理 。 但 
是 对 于 固 实 rar 来 说 ， 是 将 所 有 需要 压缩 的 jpg 文件 当 作 一 个 整体 来 压缩 ， 这 些 
jpg 之 间 就 存在 重复 的 数据 ， 如 他 们 都 有 相同 的 文件 头 〈 其 中 包括 各 种 数据 表 ) 
等 ， 这 就 出 现 了 可 压缩 的 空间 。 从 我 看 到 的 资料 来 看 ，Flash 文件 也 采用 了 类 似 
的 技术 对 jpg 进行 压缩 : 如 果 在 Flash 文件 中 使 用 了 多 个 jpg 文件 ， 它 们 可 以 共 
用 一 个 文件 头 。 










































































当然 天 下 不 会 有 白 吃 的 午餐 , 固 实 压缩 方式 在 提高 压缩 比 的 同时 , 也 有 一 些 
限制 ， 在 WinRAR v3.42 帮助 文件 中 的 说 法 是 : 























固 实 压 缩 可 增加 压缩 性 能 ,特别 是 在 添加 大 量 的 小 文件 的 时 候 , 但 它 也 有 一 
要 的 不利 因 素 : 





止 じ 











。 对 已 存在 的 固 实 压缩 文件 更 新 时 较 慢 ; 
“要 从 固 实 的 压缩 文件 解压 单个 文件 时 ， 它 之 前 的 文件 都 需 先 经 过 分 析 。 这 
0 般 压缩 文件 取出 文件 慢 一 些 。 但 

， 当 从 固 实 的 压缩 文件 解压 全 部 的 文件 时 ， 人 解压 速度 并 没有 影响 。 

“如 果 在 固 实 压缩 文件 中 的 任何 文件 损坏 了 ,要 从 损坏 的 范围 中 解压 全 部 的 
文件 是 不 可 能 的 。 因此， 如 果 固 实 压缩 文件 是 保存 在 例如 软盘 等 媒介 时 ， 推荐 你 
在 制作 时 使 用 “恢复 记录 ”。 

固 实 压缩 的 适用 场合 为 : 

。 压缩 文件 很 少 更 新 的 时 候 ; 

“不 需要 经 常 从 压缩 文件 中 解压 一 个 文件 或 是 部 分 文件 的 时 候 ; 

。 压缩 效率 比 压缩 速度 更 为 重要 的 时 候 。 

与 前 面 说 的 “随机 访问 ”对 应 ， 固 实 压缩 的 RAR 文件 可 能 是 世界 上 最 不 适 
合 随 机 访问 的 : 如 果 需 要 访问 固 实 RAR 包 中 的 某 个 文件 ， 就 要 从 文件 头 开始 解 
压 ， 一 直 解 到 这 个 文件 。 



















































































三 、 安 全 性 





这 里 的 安全 性 包含 几 个 方面 的 含义 : 文件 系统 安全 性 、 密 码 保护 安全 性 和 文 
件数 据 安 全 性 。 





由 于 制订 zip 格 式 规 范 的 时 候 操作 系统 本 身 的 文件 安全 性 还 没有 引起 足够 的 
视 ， 因 此 zip 格式 只 记录 最 基本 的 文件 属性 ， 包 括 只 读 属性 等 ， 没 有 其 它 附 加 
的 安全 属性 。 


























rar 格式 刚 推出 的 时 候 ， 文 件 系统 的 安全 性 只 能 参照 DOS, 和 zip 差不多 。 
但 是 rar 毕竟 是 一 种 封闭 的 格式 , 想 怎么 改作 者 一 个 人 说 了 就 算 ,因此 当 Windows 
中 出現 NTFS， 并 且 引 入 扩展 的 文件 系统 安全 属性 时 ，rar 也 积极 跟 进 ， 所 以 现在 
应 该 说 rar 格式 在 这 方面 比 zip 强 。 

















在 zip 和 rar 格式 中 均 提 供 了 密码 保护 功能 ,但 是 密码 保护 的 安全 强度 不 同 。 











zip 由 于 格式 开放 、 代 码 开源 ， 因 此 zip 密码 破解 软件 出 现 得 比较 早 ， 也 比 
较 多 。 初 期 以 暴力 破解 为 主 , 威胁 不 大 , 真正 对 zip 密码 安全 的 致命 一 击 是 known 
plain text( 已 知 明文 ) 攻 击 法 :如 果 知 道 加 密 zip 文件 中 某 段 内 容 ( 密 文 ,ciphertext) 
解密 后 的 真正 内 容 〈 明 文 ，plain text)， 就 可 以 反 推 出 zip 加 密 口 令 。 在 这 种 攻击 
方法 的 威胁 ， 及 某 些 国家 的 法 律 对 密码 技术 的 限制 下 ， 著名 开源 组 织 zlib 宣 
永久 放弃 对 加 密 zip 的 支持 ， 详 见 zlib 网 站 上 的 相关 说 明 《〈 不 过 在 zlib 发 行 的 源 
代码 里 仔细 找 找 ， 还 是 能 找到 原来 的 加 /解密 相关 代码 )。 
































记得 rar 刚 推出 的 时 候 也 和 zip 一样 , 虽然 不 能 列 出 加 密 文件 中 的 文件 内 容 ， 
但 可 以 列 出 加 密 文 件 中 的 文件 名 。 后 来 大 概 也 是 被 known plain text 攻击 法 吓 到 
了 ， 增 加 了 一 个 “加 密 文 件 名 ”选项 ， 干 脆 连 加 密 rar 文件 里 有 哪些 文件 都 看 不 
见 ， 让 攻击 者 想 猜 明文 都 无 从 猜 起 。 




















rar 格式 比 zip 晩 推 出 , 在 安全 方面 吸取 了 足够 的 教训 , 因此 采用 的 是 美国 国 
家 标准 与 技术 局 (National Institute of Standard and Technology, NIST) 推荐 的 、 
目前 公认 安全 程度 比较 高 的 AES 对 称 加 密 算法 ， 密 钥 长 度 128 位 。 在 ASE 被 
攻破 以 前 (NIST 认为 30 年 内 无 法 攻破 )， 大 家 都 只 能 在 暴力 法 上 兜 圈子 ， 所 以 
密码 安全 性 应 该 说 比 zip 高 。 对 此 WinRAR 3.42 的 帮助 文件 是 这 样 描述 的 ; 









































ZIP 格式 使 用 私有 加 密 算法 。 RAR 压缩 文件 使 用 更 强大 的 AES-128 标准 
加 密 。 如 果 你 需要 加 密 重 要 的 信息 ,选择 RAR 压缩 文件 格式 会 比较 好 一 些 。 为 
了 确实 的 安全 性 ， 密 码 长 度 请 最 少 要 8 个 字符 。 不 要 使 用 任何 语言 的 单词 作为 
密码 ， 最 好 是 任意 的 随机 组 合 字 符 和 数字 ， 并 且 要 注意 密码 的 大 小 写 。 请 记 住 ， 
如 果 你 遗失 你 的 密码 ， 你 将 无 法 取出 加 密 的 文件 ， 就 算是 WinRAR 的 作者 本 身 
也 无 法 解压 加 密 过 的 文件 。 










































































在 数据 安全 性 方面 , RAR 格式 本 身 文 持 一 种 特殊 的 附加 信息 类 型 , 叫做 “ 恢 
复 记 录 ”。 如果 RAR 文件 有 恢复 记录 , 在 介质 物理 损坏 或 其 它 原 因 造 成 数据 丢失 
时 ，WinRAR 可 以 按照 “恢复 记录 ”尝试 对 数据 进行 修复 。 而 zip 格式 无 恢复 记 
录 ， 因 此 在 数据 安全 性 方面 应 该 说 比 RAR 弱 。 




















昌 然 RAR 文件 本 身 支 持 恢复 记录 ,但 是 在 WinRAR 里 此 选项 缺 省 是 关闭 的 ， 








而 打开 后 会 导致 压缩 出 来 的 RAR 文件 体积 增加 (增加 的 百分比 与 设置 有 关 ), 可 
能 会 令 某 些 人 感到 不 习惯 (我 就 亲眼 见 到 有 人 在 论坛 上 抱怨 为 什么 压 出 来 的 
RAR 文件 会 如 此 庞大 )， 所 以 这 个 功能 基本 上 形同虚设 。 











四 、 开 放 性 





开放 性 的 对 比 很 明显 : zip 格式 不 仅 文件 格式 完全 公开 ， 而 且 有 专门 的 开源 
组 织 提供 操作 源 代码 ， 跨 平台 使 用 也 没有 多 大 限制 ，rar 格式 完全 保密 ， 作 者 只 
提供 解压 押 需 源 代 码 ， 不 提供 压缩 所 需 源 代码 ， 跨 平台 使 用 有 点 麻烦 。 






























































zip 开源 组 织 中 ， 最 出 名 的 是 zlib 和 InfoZip， 二 者 各 有 侧重 : zlib 偏重 对 内 
存 缓冲 区 的 压缩 ， 因 此 被 png 等 开源 组 织 用 做 内 部 压缩 算法 ， 连 java 的 jar 程序 
内 核 都 来 自 zlib, 打出 来 的 jar 包 自 然 也 是 一 个 标准 的 zip 文件 ，InfoZip 偏重 对 
文件 的 操作 (包括 口令 保护 )， 应 用 似乎 不 如 zlib 广泛 , 但 我 个 人 觉得 其 实 它 还 
是 满 好 用 的 ， 前 提 是 需要 对 它 的 源 代 人 码 进 行 一 些 必 要 的 修改 。 

















在 png 组 织 的 网 页 中 有 说 到 png 格式 的 来 历 ， 我 觉得 也 很 有 意思 : 做 png 
的 一 班 人 ， 其 实 原 来 都 是 做 gif 格式 的 ， 但 是 由 于 Unisys 公司 开始 对 gif 格式 的 
核心 一 一 LZW 压缩 算法 征收 专利 费 ， 这 帮 人 和 爷 了 ， 干 脆 提 出 png 格式 : 大 结构 
方面 还 是 采用 分 段 结构 ， 但 是 核心 压缩 算法 采用 开源 的 zlib， 压 缩 效果 在 多 数 
情况 下 比 gif 的 LZW 更 强 。 由 于 没有 版 权限 制 ， 在 静态 图 形 领域 png 得 到 广泛 
应 用 ， 如 果 不 是 及 时 提出 动画 文 持 并 因此 在 web 上 大 行 其 道 ， 我 估计 gif 早 就 死 
掉 了 。 




































































RAR 的 解压 源 代 码 在 其 官方 网 站 www.rarlab.com 上 提供 , 通常 比 WinRAR 
的 正式 版 本 晚 一 点 ， 不 过 据说 是 直接 从 WinRAR 的 源 代 码 中 抠 出 来 的 ， 所 以 兼 
容 性 应 该 没有 什么 问题 。 




















五 、 结 论 














以 下 观点 纯 属 个 人 观点 ， 仅 供 参 考 ， 不 具有 如 何 指导 意义 : 























“如 果 经 常 需要 对 压缩 包 进 行 随机 访问 ,应 该 选 zip 而 不 是 rar。 虽 然 将 下 载 
到 的 rar 重新 压缩 成 zip 会 肪 烦 一 次 ， 但 是 以 后 会 减少 无 数 的 麻烦 。 

*。 如 果 需 要 分 卷 压缩 〈 如 某 些 网 站 对 上 传 文件 大 小 有 限制 )， 则 只 能 用 rar。 
事实 上 ， 这 也 是 我 唯一 会 使 用 rar 格式 的 场合 ， 其 它 时 候 一 律 zip 没商量 。 




















http://www.readfree.net/bbs/read.php7tnd=4532667 層 keyword= 


























作者 : 马 健 
用 Pdg2.DLL 人 解码 PDG 的 境界 

本 帖 被 nulc 设置 为 精华 (2007-10-30) 

一 、 入 门 级 

原理 : 按照 《用 BCB 实现 超星 格式 转换 为 BMP 格式 》 中 说 的 方法 调用 
Pdg2.DLL 接口 。 

优点 : 简单 明了 ， 基 本 上 把 例子 搬 过 来 就 可 以 了 。 


缺点 : 


或 插图 层 色 彩 不 正确 。 





应 用 : 





1、 占 用 系统 剪贴 板 ,， 有 时 会 很 心烦 。 2、T3 类 PDG 可 能 会 丢 插 图 层 ， 




















coolman 早期 的 软件 ， 及 论坛 其 他 一 些 人 的 软件 ， 都 用 过 这 个 方法 。 


二 、 剪 贴 板 HOOK 级 
































原理 : 在 “入 门 级 ”的 基础 上 ， 通 过 API HOOK， 避 免 对 系统 剪贴 板 的 “ 实 
际 ” 占 用 。 这 “实际 ”两 个 字 ， 已 经 把 方法 完全 说 出 来 了 。 

优点 : 不 再 占用 系统 剪贴 板 ， 性 能 有 所 改善 。 

缺点 : T3 类 PDG 问题 依旧 。 

应 用 : coolman 中 期 的 软件 用 过 这 个 方法 ， 其 他 人 的 似乎 也 用 过 。cheming 
的 TC 阅读 插件 ， 甚 至 同时 使 用 3 个 控件 后 台 解 码 ， 以 加 快速 度 。 

三 、COM 级 

说 明 : 这 次 是 第 一 次 公开 发 布 此 方法 ， 以 前 我 只 告诉 过 smartsl 一 次 。 


原理 : 


Pdg2.DLL 实现 的 其 实 是 一 个 COM 组 件 ， 按 照 微 软 的 COM 规范 ， 





COM 组 件 必须 实现 某 些 接口 。 如 果 开 发 人 员 在 开发 COM 组 件 时 使 用 了 现成 的 
框架 ， 某 些 接口 可 能 自 带 ， 连 COM 组 件 的 开发 者 自己 都 没有 意识 到 ， 而 知道 的 
人 可 以 直接 通过 接口 ， 获 取 解 码 后 的 图 像 (DDB )。 

优点 : 根本 不 需要 与 前 贴 板 打 交道 ， 也 用 不 到 API HOOK， 直 接 调 用 标准 的 




















COM 接口 即 可 ， 简 单 到 没有 任何 若 念 ， 当 然 前 提 是 你 要 知道 该 调用 哪个 接口 。 
缺点 : T3 类 图 像 只 能 得 到 文字 层 ， 插 图 层 需 要 自己 处 理 。 
应 用 : Pdg2Pic V1.00。 我 当年 就 是 在 用 coolman 的 pdg2bmp&jpg&tif&pdf&txt 
时 ,对 它 占用 系统 剪贴 板 感到 极度 心烦 才 会 想到 去 开发 Pdg2Pic 的 ， 所 以 一 开始 
就 绕 过 了 剪贴 板 。 




















三 、API HOOK 级 

说 明 : 这 次 是 第 一 次 公开 发 布 此 方法 ， 以 前 我 只 告诉 过 某 人 一 次 , 并 且 给 过 
他 源 代 码 ， 当 然 这 是 有 某 些 前 提 的 交换 。 

原理 : 通过 API HOOK， 直 接 得 到 Pdg2.DLL 解码 后 的 DIB。 

优点 : 上 面 所 有 方法 得 到 的 都 是 DDB， 唯 有 这 个 可 以 得 到 DIB， 速 度 有 了 
很 大 提高 ， 系 统 资源 占用 也 有 所 下 降 。 

鉄 点 : T3 类 图 像 只 能 得 到 文字 层 ， 插 图 层 需 要 自己 处 理 。 

应 用 : Pdg2Pic V1.01 中 作为 后 备 手段 。 

































































基于 Pdg2.DLL 的 所 有 方法 的 共同 特点 : 

1、 容 错 能 力 太 差 ， 只 要 原始 PDG 文件 有 点 问题 ，CPU 占用 100%、 非 正常 
退出 那 赴 家常 便 仮 。 

2、 即 使 文件 正常 , 只 要 翻 页 , 内 存 占用 就 会 增加 , 尤其 是 DjVu 格式 的 PDG。 
CX 程序 员 调 用 djvulibre 的 方法 ， 对 任何 一 个 合格 的 程序 员 来 说 都 是 一 个 笑话 ， 
但 是 CX 居然 用 了 一 个 djvulibre 就 敢 声称 自己 掌握 了 “小 波 图 像 压 缩 ” 真是 不 
服 不 行 。 

3、 从 接口 上 看 ， 用 Pdg2.DLL 解码 应 该 是 可 以 解 已 知 帐号 信息 (如 本 人 帐 
号 ) 的 6xH， 不 过 托 各 路 高 手 的 福 ， 虽然 我 本 人 是 CX 的 VIP, 但 是 6xH 对 我 来 
说 一 直 是 无 缘 的 存在 ， 所 以 也 没有 兴趣 深入 研究 。 



















































































所 以 从 V1.01 起 , Pdg2Pic 缺 省 就 不 再 使 用 Pdg2.DLL (当然 运行 的 时 候 还 需 
要 它 ， 这 是 为 了 给 CX 面子 )，coolman 的 软件 现在 也 摆脱 了 对 它 的 依赖 。 其 中 的 
成 果 属 于 众人 人， 任何 个 人 都 无 权 加 以 公开 。 











http://www.readfree.net/bbs/read.php?tid=4545449&keyword= 


用 PDG 的 瓶子 ， 装 PNG 的 酒 





作者 : 马 健 





Q: 为 什么 要 支持 名 为 PDG， 实 为 PNG 的 文件 ? 

A: 我 个 人 认为 ,， PDG 文件 的 功绩 之 一 是 定义 了 一 个 文件 命名 规范 ， 可 以 区 
别 封面 、 目 录 、 正 文 等 页 面 。 但 是 PDG 文件 只 支持 黑白 、 彩 色 、256 级 灰 度 图 
像 ， 而 不 文 持 16 级 灰 度 、4 级 灰 度 等 的 图 像 。 如 果 扫 描 时 使 用 的 扫描 仪 高 级 到 
能 够 智能 区 别 彩 色 和 黑白 页 面 ，PDG 这 样 做 并 没有 什么 问题 ;但 是 如 果 扫 描 仪 
没 这 么 高 级 ， 烦 恼 就 来 了 : 为 了 给 某 本 书 补 页 ， 我 曾经 托 人 帮 有 我 扫描 过 几 页 ， 由 
于 扫描 者 、 扫 描 仪 、 书 等 的 综合 原因 ， 导 致 这 几 页 彩色 不 彩色 、 黑 白 不 黑白 ， 直 
接 存储 为 JPG 未 免 太 过 浪费 ; 减 色 为 黑白 图 像 则 损失 太 大 ， 字 都 缺 腹 膊 少 腿 ; 
最 佳 选择 是 减 色 成 16 级 灰 度 ,然后 存储 成 PNG, 但 是 偏偏 这 样 的 文件 不 符合 PDG 
规范 ,从 那个 时 候 起 我 就 下 定 决 心 要 在 未 来 的 PDG 浏览 器 中 加 入 对 PNG 的 支持 。 

目前 Pdg2Pic、PdgThumbViewer、UnicornViewer 均 已 支持 名 为 PDG 实 为 
PNG 的 文件 ，DjVuToy 由 于 牵涉 面 比 较 广 ， 和 暂缓 支持 。 

























































































































































































http://www.readfree.net/bbs/read.php?tid=240392&keyword= 


InfoRule.dat 的 解密 算法 - 答 flyfox 





tT 


flyfox 求教 InfoRule.dat 和解 密 算 

时 间 : 2006-10-19 09:30 

内 容 : 因 想 自 编 工具 下 载 超星 文本 书 , 故 近 日 研究 超星 文本 书 mfoRule.dat 文 
件 的 解密 算法 .无 奈 能 力 有 限 , 虽 花 了 不 少时 间 , 仍 不 得 其 法 ,还 望 不 音 赐 教 . 





HH 























答复 如 下 : 


InfoRule.dat 的 文件 内 容 如 下 : 
00000000: 42 4B 52 54-00 01 00 00-08 00 00 00-01 00 00 00 BKRT ? ? 
00000010: 01 00 00 00-48 01 00 00-3A 00 00 00-44 00 00 00 7? HH: 
00000020: 28 00 00 00-6C 00 00 00-400A0000-ACOA0000( 1 @??? 
00000030: 40 07 00 00-00 00 00 00-00 00 00 00-00 00 00 00 @? Ie 上 
00000040: 00 00 00 00-78 01 75 DS-21 8C 93 77-18 C7 F1 02 x7u F!29w 
1 上 土 ? 
00000050: 63 10 D6 31-46 10 04 B1-8C 64 99 58-9A AS 6F 7B c? F1F7777d72X 
i?o{ 
00000060: ED FS 12 82-40 21 1A D4-D4 CC 2D 6C-61 62 4D 8E 中 ?26Q@I 一 
F-labM? 
00000070: 4C 6C 53 53-AS AS 62 0A-35 35 35 D1-A0 50 28 14 LISS?7?b?555—— 




















GP(? 
00000080: EA 55 28 14-6A 6A A9 40-4D 4D FO 7C-E8 FF FF 26 9 
U(2ij2@MM 財 |I① & 





在 0x44 位 置 开 始 (78 01 .…) 是 Zlib 压缩 数据 流 ， 可 以 使 用 标准 解压 缩 算 
法 解密 。 此 方法 同样 适用 于 解密 之 后 的 文本 PDG 转换 成 PDF。 
解压 缩 之 后 的 数据 格式 可 以 请 老 马 ，hstong 等 人 答复 。 























http://www.readfree.net/bbs/read.php?tid=4533001&keyword= 


PDG 下 载 软件 不 完全 比较 





作者 : 马 健 


声明 : 

1、 本 次 比较 只 比较 还 能 用 的 下 载 软件 ， 已 经 失效 的 一 律 不 算 。 

2、 本 次 比较 只 比较 公开 发 布 过 的 软件 ， 秘 密 武 器 一 律 不 算 。 

3、 由 于 我 自己 到 现在 也 绕 不 清 “ 报 文 ” 之 流 的 东西 ， 所 以 本 次 比较 上 只 比 较 
能 够 通过 SS 号 、Ir 链接 等 下 载 的 “傻瓜 ”型 工具 。 

因此 ， 本 次 比较 是 一 个 “不 完全 ”的 比较 ， 仅 供 参考 。 


























一 、SSREADER 修改 版 
简单 点 说 ， 这 类 工具 就 是 对 原版 SSREADER 进行 修改 ， 以 去 除 某 些 限 制 ， 
目前 公开 发 布 的 有 sellen 版 和 老 认 版 。 






































这 类 工具 的 共同 特点 : 
1、 保 持原 版 SSREADER 的 所 有 使 用 习惯 ， 因 此 是 所 有 工具 里 最 容易 使 用 
的 一 类 。 





2 继承 了 原版 SSREADER 的 特点 :下 载 不 到 封面 \ 书 名 、 版 权 页 ; bookinfo.dat 
只 包含 基本 项 ， 需 要 用 其 它 工具 加 以 补充 。 
3、 与 原版 SSREADER 相 比 , 不 会 下 载 到 6xH， 也 不 用 担心 文件 过 期 。 这 也 






































是 此 类 下 载 工 具 最 基本 的 目的 。 


1、sellen 版 SSREADER 

优点 ; 免费 、 无 机 器 码 限制 ， 无 下 载 任务 数 限 制 ， 有 卡 用 户 从 主 站 可 以 下 载 
到 清晰 版 。 

鉄 点 : 从 SSLIB 下 载 到 的 是 快速 版 。 

2、 老 应 版 SSREADER 

优点 : 可 以 从 SSLIB 下 载 到 清晰 版 。 

缺点 : 限制 机 器 码 、 限 制 下 载 任务 数 。 














二 、JPG 下 载 

这 类 工具 的 特点 是 : 下 载 时 不 需要 任何 CX 帐号 , 但 是 只 能 下 载 到 带 水 印 的 
JPG 文件 。 

目前 这 类 工具 公开 发 表 的 有 nulc 的 TOClite 和 selong 的 MFLP 

1、nulc 的 TOClite 

优点 : 这 类 工具 的 鼻祖 ， 因 此 有 广泛 的 影响 力 ， 用 来 给 已 知 SS 号 的 书 补 封 
面 还 是 很 方便 的 。 

缺点 : 没有 批量 功能 、 没 有 补 页 功能 ， 只 能 通过 SS 号 下 载 。 

2、selong 的 MFLP 

优点 : 文 持 批 量 、 文 持 自 动 补 页 ， 能 够 从 lr 链接 生成 含有 丰富 信息 的 
bookinfo.dat。 

缺点 : 无 ， 至 少 我 没有 感觉 到 。 





















































这 里 需要 洪 清 一 下 : 很 多 人 似乎 不 知道 MFLP 里 的 “ 选 书 模式 ”是 什么 意 
思 ， 白 白浪 费 了 这 么 好 的 一 个 功能 。 

其 实 这 个 功能 是 selong 应 我 的 要 求 开发 的 : 在 CX 的 书库 里 , 一 本 书 可 能 有 
若干 个 版 本 , 一 个 领域 的 同类 书 就 更 多 了 。 但 是 下 载 的 时 候 又 不 可 能 把 这 些 书 全 
部 下 载 下 来 再 慢 慢 比较 ,而 在 f 上 在 线 比较 又 比较 麻烦 ， 因 此 就 需要 这 样 的 “ 选 
书 ” 功 能 : 先 把 附属 页 和 10 页 正文 下 载 下 来 , 用 ComicsViewer 或 ComicEnhancer 
Pro〔 文 持 多 窗口 ) 慢 慢 比较 ， 从 中 找 出 自己 最 满意 的 书籍 ， 然 后 再 去 下 载 。 





























三 、 独 立 PDG 下 载 工具 

目前 公开 的 CX 漏洞 都 被 堵 光 光 , 因此 不 再 有 利用 CX 漏洞 的 傻瓜 型 下 载 工 
具 发 布 ， 现 在 流行 的 趋势 是 模仿 SSREADER 的 下 载 过 程 ， 冒 充 SSREADER 进 
行 下 载 ， 因 此 都 要 求 用 户 是 CX 合法 用 户 。 目 前 这 类 下 载 工 具有 coolman 的 
pdgmagician 和 老鹰 的 ExpertAssist。 

1、coolman 的 pdgmagician 

优点 :大 而 全 ， 附 属 功 能 比较 多 ; 能够 通过 SS 号 、SSLIB 链接 、Ir 链接 下 
载 ， 能 够 从 Ir 链接 生成 含有 丰富 信息 的 bookinfo.dat。 

缺点 : 配置 复杂 ， 缺 省 配置 很 难 下 载 到 什么 ， 手 工 配置 稍 有 不 慎 就 可 能 被 
CX 封 TP。 

2、 老 鷹 的 ExpertAssist 

优点 : 使 用 简便 ， 无 需 过 多 配置 ， 能 够 登录 SSREADER 即 可 。 

缺点 : 内 部 做 了 防止 过 度 下 载 的 限制 ， 因 此 每 次 都 要 重新 登录 CX; 生成 的 


























































































































bookinfo.dat 信息 比较 朴素 ， 只 能 从 1r 链接 下 载 ， 不 过 这 个 似乎 影响 不 大 。 





四 、 建 议 

如 果 只 能 上 主 站 :sellen 版 SSREADER + selong 的 MFLP 

如 果 能 够 上 主 站 和 SSLIB: 老 鷹 版 SSREADER + selong 的 MFLP 

如 果 对 自己 的 技术 有 足够 的 信心 : coolman 的 pdgmagician 

如 果 对 自己 的 技术 没有 信心 ， 但 是 有 足够 的 耐心 : 老 鷹 的 ExpertAssist 





























破解 超星 打印 量 限制 





用 超星 图 书 室 版 4.0 下 了 几 本 书 ,要 转 成 PDF 格式 , 忽 提 示 打 印 量 超 出 . 
网 上 有 两 法 : 











备份 C:\Program Files\SSREADER36\ssreader.ul, 当 打印 页 数 超出 限制 时 ， 用 
备份 的 文件 覆盖 原文 件 后 ， 就 可 以 再 打印 了 。 或 将 安装 目录 下 的 ssreader.ul 文件 
属性 改 为 只 读 即 可 




















使用 UltraEdit-32 软件 打开 SsReader.exe 文件 ， 选 择 搜 索 菜 单 下 的 查找 命 
令 ， 在 查找 栏 输入 750D8B0764A3 然后 点 击 下 一 个 按钮 ， 将 搜索 到 的 
750D8B0764A3 中 的 0D 改 为 2A ， 最 后 存盘 即 可 ! 








偶 之 方 法 : 





将 系统 时 间 改 后 一 个 月 ,就 可 以 再 打印 了 。 


打 完 后 ,时 间 再 改 回来 ,还 能 打印 。 已 下 载 的 和 在 线 的 ,都 好 用 . 
打印 量 又 超出 ,再 改 后 一 个 月 ,好 不 好 用 , 偶 没 试 . 


看 来 还 是 ssreaderul 控制 打印 量 . 








改 一 个 字 节 破解 超星 每 月 打印 上 限 限 制 ! 
使 用 UltraEdit-32 软件 打开 SsReaderexe 文件 ， 选 择 搜 索 菜 单 下 的 
查找 命令 ， 在 查找 栏 输入 750D8B0764A3 然后 点 击 下 一 个 按钮 ， 将 搜索 到 的 
750D8B0764A3 中 的 0D 改 为 2A ， 最 后 存盘 即 可 ! 
注意 : 一 共 可 搜索 到 两 处 ， 只 修改 第 一 次 搜索 到 的 。 
这 种 方法 适合 超星 3.9~4.0 的 各 种 版 本 。 其 它 版 本 未 测试 ! 





























手工 计算 有 试 读 〈 有 封面 ) ss 号 的 方法 : 


是 用 工具 方便 。 














本 文 是 为 了 让 大 家 了 解 ss 号 是 如 何 计 算 的 ， 如 果 有 工具 还 
用 读 秀 图 书 搜索 I /www.duxiu.comy/ 查 找 你 想 试 读 的 书 。 
例如 : 《美国 理论 语言 学 研究 》http://www.duxiu.com/search?sw=% .… 


bCon=&Field=all 
或 http://www.duxiu.com/book/000/00 … E4C337105C6793E.htm 


如 果 看 到 有 封面 一 般 就 会 有 试 读 。 














一 、 通 过 iid 计算 ss 号 
id 在 不同 的 地方 可能 不同 
、 在 查询 结果 中 计算 : 
http://www.duxiu.com/search?sw=% ... bCon=&Field=all 
在 封面 上 点 鼠标 右键 选 属 性 。 就 会 看 到 http://cover.duxiu.com/cover/Cov .… 
16A3138373937333638 这 样 的 地 址 C ?gVjv$O 
根据 iid 就 能 计算 ss 号 了 
先 分 解 iid 为 
69 68 67 6B 6C 70 67 6D 71 6A 3138373937333638 























去 挥 第 三 和 第 七 个 字 节 和 后 面 8 个 字 节 。 得 到 69 68 6B 6C70 6D 71 6A 

8 个 字 节 中 小 于 第 一 字 节 且 最 小 的 作为 基数 。 本 例 为 68 

各 字 节 分 别 减 去 基数 〈68) 便 得 到 了 ss 号 。 

10348592 

2、 在 试 读 页 面 中 计算 

http://www.duxiu.com/book/000/00 … E4C337105C6793E.htm 

小 封面 地 址 http://cover.duxiu.com/cover/Cov .… E673231373833383435 

大 封面 地 址 http://cover.duxiu.com/cover/Covy .… 09B3632313735393534 

可 以 看 出 各 处 iid 都 不 同 ， 但 规律 是 相同 的 。 同 样 去 掉 第 3 第 7 字 节 后 取 前 
8 字 节 

依照 前 法 都 可 得 出 ss 号 : 

10348592 

































































用 iid 计算 ss 号 的 另 一 个 算法 适用 于 编程 
估计 细心 的 你 已 经 发 现 了 。 
就 是 用 以 上 任何 一 个 iid 去 掉 第 3 和 第 7 字 节 后 的 前 8 字 节 ， 各 字 节 分 别 减 
去 iid 的 最 后 一 个 字 节 +30 
例如 : 
1、iid=6968676B6C70676D716A3138373937333638 
末 字 节 为 38。 基 数 =38+30=68 
从 iid 中 截 出 69 68 6B 6C70 6D 71 6A 
分 别 减 去 基数 68 
得 到 ss 号 10348592 
2、iid=66656468696D646A6E673231373833383435 
66 65 68 69 6D 6A 6E 67 
分 别 减 去 (35+30=65) 
得 到 ss 号 10348592 
3、iid=65646367686C63696D66A09B3632313735393534 
65 64 67 68 6C 69 6D 66 
分 别 减 去 (34+30=64) 
得 到 ss 号 10348592 
结果 是 一 致 的 















































MY 


二 、 通 过 kid 计算 ss 号 

找到 试 读 书 http://www.duxiu.com/book/000/00 .… E4C337105C6793E.htm 
kid=666568696D6A6E673231373833383435 

取 前 8 字 66 65 68 69 6D 6A 6E 67 

以 最 小 的 为 基数 。 这 里 是 65 

分 别 减 去 基数 (65) 得 到 ss 号 : 

10348592 

或 66 65 68 69 6D 6A 6E 67 分 别 减 去 iid 的 末 字 节 上 +30(35+30=65) 

得 到 ss 号 10348592 

5)8bRp/{ KP 

别 说 不 会 十 六 进 制 运算 呀 要 是 真 不 会 就 用 windows 附件 里 带 的 计算 器 选 科 



































学 型 ， 点 选 十 六 进 制 就 可 以 计算 了 。 





很 多 算 号 软件 就 是 基于 此 原理 编制 的 。 你 也 可 以 自己 编 一 个 适合 自己 的 算 号 
器 玩 玩 。 








用 wget awk 批量 获得 超星 图 书 书 目 





标 题 : 用 wget, awk 批量 获得 超星 图 书 书目 (Utility!) 
发 信 站 : 逸 仙 时 空 Yat-sen Channel (Sun Oct 12 11:14:49 2003), 转 信 


























下 面 介绍 的 是 非 交 互 方式 下 获取 超星 图 书 书目 的 文法 。 


例如 下 面 这 个 页 面 ， 列 出 的 是 

中 山大 学 数字 图 书馆 > 语言 、 文 字 > 常用 外 国语 > 英语 > 语文 教学 书 
目的 第 1 页 ， 

一 共有 86 页 。 

http://202.116.69.18/book.asp7hb=1500030008 














你 想 看 看 这 里 都 有 哪些 书 。 




















* 第 一 种 方法 : 可 以 用 浏览 器 在 线 碍 看 ， 
按钮 ， 这 样 会 花 一 定 等 待 的 时 间 ， 








页 看 完 后 再 点 击 下 一 


对 于 大 量 的 阅读 的 同学 来 说 是 





所 以 我 希望 可 以 找 个 好 一 点 的 文法 , 用 机 器 代替 人 做 这 种 “点 击 





等 待 返回 结果 ”的 工作 是 很 全 
0 和 IE。 





适 的 。 所 以 可 以 用 wget 来 代替 








* 第 二 种 方法 : 用 wget 来 获取 网 页 ， 用 grep 来 获取 需要 的 书目 。 





文法 如 下 : 


= 建立 一 个 文件 保存 网 页 的 地 址 ， 你 下 面 这 样 : 


#cat urllist 





http://202.116.69.18/book.asp?lib=15000106&page=1 
http://202.116.69.18/book.asp?lib=15000106&page=2 
http://202.116.69.18/book.asp?lib=15000106&page=3 
http://202.116.69.18/book.asp?lib=15000106&page=4 
http://202.116.69.18/book.asp?lib=15000106&page=35 


= #wget -i urllist (-i 表示 网 页 的 地 址 从 urllist 文件 中 获得 ) 


= #grep ul book* >booklist.txt 
最 后 可 以 看 看 都 有 哪些 书 : 


#cat booklist.txt 





ps. 

















用 vim 来 编辑 . 





由 于 urllist 具有 固定 的 格式 , 你 可 以 用 awk 写 个 程序 来 帮 你 生成 , 也 可 以 


http://www.readfree.net/bbs/read.php?tid=4512366&keyword= 


去 除 JPG 水 印 的 筒 易 方 法 (10 月 30 日 第 二 次 重大 修正 ) 





作者 : 马 健 


本 帖 被 nulc 设置 为 精华 (2007-10-12) 





a JPG 转换 成 05H 的 PDG: 
、 将 PDG 批量 更 名 为 JPG。 如 果 下 载 的 时 候 就 已 经 是 JPG， 则 此 步 省 略 。 


> 用 ComicEnhancer Pro 打开 带 水 印 的 JPG, 
不 过 这 个 时 候 文字 多 半 也 会 变 得 很 细 ， 可 以 通过 











色彩 选 “ 单 色 ” 水 印 没 了 吧 ? 
当 加 “Gamma 校正 ” 值 ， 或 用 








“曲线 ”来 加 黑 。 注 意 “Gamma 校正 ”和 “曲线 ” 选 一 个 足 侨 。 调 节 好 以 后 ， 


转换 成 TIFF。 

3、 将 TIFF 文件 更 名 为 PPG， 并 且 符合 PDG 文件 命名 规范 ， 然 后 用 高 版 本 
DjVuToy 的 “PDG 压缩 ”功能 转换 成 05H 的 PDG。 注 意 转换 的 时 候 把 “转换 为 
快速 版 ”选项 去 掉 。 








如 果 不 需 要 转换 成 PDG， 而 是 希望 在 去 掉 水 印 的 同时 尽 可 能 保持 清晰 : 

1、 将 PDG 批量 更 名 为 JPG。 如 果 下 载 的 时 候 就 已 经 是 JPG， 则 此 步 省 略 。 

2、 用 ComicEnhancer Pro 打开 带 水 印 的 卫 G， 将 “高 亮度 ”设置 为 125, 看 
到 那 神奇 的 效果 了 吗 ? 如 果 希 望 对 文字 的 影响 尽 可 能 小 ,还 可 以 尝试 将 “高 亮 值 ” 
设置 为 210。 

3、 下 面 就 看 你 高 兴 了 ， 可 以 直接 存 为 JPG， 也 可 以 在 色彩 选 “16 级 灰 度 ”、 
“8 级 灰 度 ”“4 级 灰 度 ” 然后 转换 成 PNG。 灰 度 级 数 越 少 ， 图 像 损 失 越 多 ， 
文件 越 小 , 16 级 灰 度 基本 上 肉眼 看 不 出 文字 部 分 有 任何 损失 ,4 级 灰 度 则 很 明显 ， 
可 以 结合 “曲线 ”或 “Gamma 校正 ”等 加 以 改善 。 



































ComicEnhancer Pro 中 的 所 有 转换 操作 均 支 持 批量 ， 并 且 所 有 调节 参数 均 可 
记忆 、 恢 复 ， 详 见 使 用 说 明 。 











果 : 
只 对 黑白 文字 页 面 有 效 ， 对 封面 、 插 图 页 等 彩色 、 灰 度 页 面 无 效 。 

2、 此 法 对 于 U 字 上 面 一 颗 星 星 的 水 印 差不多 能 完全 去 除 ， 对 于 “好 学 近乎 
知 ?” 的 篆刻 水 印 , 早期 的 会 会 留 下 一 点 黑 边 (这 个 黑 边 从 理论 上 说 很 难 完全 去 掉 )， 
最 近 的 则 可 以 完全 去 除 。 

3、 减 色 后 存储 为 PNG， 文件 长 度 要 比 原版 JPG 小 得 多 , 所 以 別 再 俊平 平地 
转 回 去 。 

4、 转换 出 来 的 PNG, 可 以 直接 用 ComicsViewer 浏览 , 也 可 以 用 FreePic2Pdf 
转换 成 PDF。 

5、 如 果 以 OCR 为 最 终 目的 ,建议 转换 成 单 色 ,注意 文字 不 可 过 黑 ， 以 免 精 
连 。 

男 外 : 

1、 如 果 觉 得 本 文 有 用 ， 手 上 又 刚好 有 点 闲钱 ， 请 点 击 下 面 的 “购买 ”按钮 
缴纳 听课 费 ， 没 钱 也 可 以 回帖 氛 个 人 场 。 

2、 如 果 想 照 这 个 帖子 的 思路 自己 开发 批量 转换 软件 ， 我 推荐 使 用 cximage, 
ComicEnhancer Pro 的 “ 减 色 ”功能 用 的 就 是 它 的 代码 。 


二 普 




































































用 wget 也 可 以 实现 多 线程 下 载 


试用 了 Inforule.dat 中 的 目录 生成 软件 后 ， 发 现 用 wget 软件 可 以 实现 多 线程 
下 载 

步骤 如 下 : 

1. 下 载 wget for windows 软件 

2. 编 辑 .wgetrc 文件 ， 内 容 如 下 : 

header=SSAuth:18 位 随 机 数 





header=SSRANDOM: 8 位 随机 数 
header=BookAuth: 在 此 填 BookAuth 
header=SSOIAC: 在 此 填 SSOIAC 
header=User-Agent: 
header=Cache-Control: no-cache 

3. 编 辑 zhfinforulel.htm 到 zhfinforule5.htm 文件 ， 内 容 如 下 : 
zhfinforulel.htm 

<a href="BookContents.dat” /> 
<ahref= "fow001.pdg” /> 

<a href="fow002.pdg” /> 

<a href="fow003.pdg" /> 

<a href="fow004.pdg" /> 

<a href="fow005.pdg" /> 

<a href="!00001.pdg" /> 

<a href="!00002.pdg" /> 

<a href="!00003.pdg" /> 

<a href="!00004.pdg" /> 

<a href="!00005.pdg" /> 

<a href="000001.pdg" た 

<a href="000002.pdg" /> 





























<a href="000050.pdg" /> 
zhfinforule2.htm 
<a href="000051.pdg" た 


<a href="000100.pdg" /> 

其 余 3 个 文件 内 容 按 顺序 进行 编写 

4. 编 写 downfilel.bat 到 downfile5.bat 内 容 如 下 : 

wget - ド -O logfilel -1 zhfinforulel.htm -B 
http://hn2.5read.com/300-17/diskead/ead04/13/ 























wget - ド -O logfileS5 -1 zhfinforuleS.htm -B 
http://hn2.5read.com/300-17/diskead/ead04/13/ 





然后 ， 运 行 downfilel.bat 到 downfileS.bat 即 可 以 5 线程 同时 进行 下 载 


pcookie.htm 


c:\winntweb\pcookie.htm 


<script language=" VBScript > 

set win=external.menuArguments 

set doc=win.document 

s = doc.cookle 

for each 1 in split(s,"; ") 

doc.cookie =i& "; expires=Thu, 1 Jan 2099 0:0:0 UTC" 
next 

</script> 





Windows Registry Editor Version 5.00 


[HKEY_CURRENT_USER\Software\Microsoft\Internet 
Explorer MenuExt\(&P)cookie] 

@="c:/winnt/web/pcookie.htm" 

"Contexts"=dword:000000ff 


執行 reg 档 ， 之 后 重 开 卫 ， 就 可 以 在 下滑 鼠 右键 壬 面 ， 使 用 了 








Fi 


[Sleipnir 専用 ] 

最上 方 的 綱 寺 欄 , 右 由 有一 個 緑 色 笛 頭 , 那 個 就 赴 AddrMenu, 接 下 去 , 選 
[编辑 延伸 跑 单 ] 

在 AddrMenu.INL, 最 底 行 ， 加 入 这 一 行 〈( 以 下 3 行 需 連 成 1 行 ) 


























(&P)cookieljavascript:var ar = document.cookie.split("; "); 
for (1=0; i<ar.length; i++) { document.cookie = ar + 
"; expires=Thu, 1 Jan 2099 0:0:0 UTC"; }; eval() 


修 改 存 模 之 後 , 選 「 重 新 載 入 延伸 選 時, 就 可 以 使用 了 .. 














CX 入 口 的 搜索 方法 


在 baidu 或 者 google 中 输入 : 
由 于 该 数据 库 目 前 仍 在 调试 ， 读 者 在 使 用 过 程 中 知 有 问题 请 及 时 与 我 们 联 
系 。 谢 谢 ! 








或 者 输入 : 
email: superstar @ ssreader.com 


主 站 有 没有 某 书 用 主 站 客服 教 大 家 的 方法 


[quote] 引 用 第 49 楼 zhuce2003 于 2007-08-28 20:39 发 表 的 : 
主 站 有 没有 某 书 用 主 站 客服 教 大 家 的 方法 一 下 子 就 知道 啊 ， 几 乎 1 一 3 秒 内 
就 知道 。 




















book://ss2path.ssreader.com/ss2path/ss2path.dll?ssnum=11595651&pagenum=1 
&pagetype=6 


book://ss115956651[/quotel] 


wget-- 強 大 的 下載 工具 


- [Linux By Examples] 原文: wget。 a powerful downloader 
作者 : mysurface 

译 者 : gosman(lianmingchang2008#smail.com) 

来 自 : http://gosman.blogbus.com 

版本 : V1.0.0 

时 间 : 2007-4-29 





如 果 你 认为 wget 只 是 基于 命令 行 的 下 载 器 ， 那 你 就 错 了 。wget 拥有 各 种 各 





rb 


羊 的 下 载 功 能 。 下 面 就 展示 儿 个 小 例子 : 


从 站 点 下 载 文 件 : 


wget http://www.dummy.com/foo.tar.gz 





实现 断 点 续 传 : 
wget -c http://www.dummy.com/foo.tar.gz 


好 的 ,我 的 网 络 连接 比较 慢 ， 经 常 断 线 ， 想 让 和 它 自动 


么 办 呢 ? 


wget -t -0 -c http://www.dummy.com/foo.tar.gz # 由 认 


[El 





试 。 














试 20 次 ， 


挺 有 意思 的 ， 那 我 想 下 载 已 知 网 址 的 整个 站 点 该 怎么 办 呢 ? 
wget -p http://www.dummy.com/blog 














如 果 我 下 载 的 文件 需要 用 户 名 和 密码 该 怎么 办 呢 ? 


wget http://www.dummy.com/bar.tar --user=name --password=passwd 

















选项 -t0 使 


如 果 要 下 载 某 个 站 点 的 茶 个 目录 下 的 所 有 文件 ， 这 需要 较 长 的 wget 命令 : 
wget -nd -r -11 --no-parent http:/ が www.foo.com/mp3/ 


通常 这 样 

















是 可 行 的 , 但 同时 也 会 下 载 一 些 类 似 index.@xx 这 相 





EF 没 用 的 文件 。 


想 让 你 的 目录 干净 些 ， 如 果 你 知道 文件 名 格式 的 话 ， 你 可 以 用 以 下 命令 : 


wget -nd -T -ll --no-parent -A.mp3 -A.wma http://www.foo.com/mp3 


简单 解释 一 下 以 上 选项 的 意义 : 
-nd 不 创建 目录 (no directory), wget 缺 省 创建 目录 
-递归 下 载 
-11 深度 1evel 1), 只 下 载 指定 目录 ， 不 下 载 下 层 目 录 
--no-parent 不 追溯 到 起 源 目 录 (Idefinately don”t want the parent” s files) 











想 知 道 更 多 ， 那 束 man wget 吧 ! 


readfree 新 手 推 荐 赚钱 路 线 (其 实 很 有 技术 含量 , 非 水 


帖 )[dingdangch] 


http://www.readfree.ne(/bbs/read.php7td=4513860 災 fpage=2 
readfree 新 手 推 荐 赚钱 路 线 








作者 : dingdangch 








新 人 来 到 这 里 ,最 为 郁 闽 的 事情 莫大 于 钱 和 威望 ,威望 一 途 没 有 捷径 ， 
发 优秀 的 原创 贴 子 自然 版 主 给 给 你 评 , 什么 是 优秀 的 原创 贴 我 也 不 太 清 楚 ， 大 家 
看 看 我 的 威望 就 知道 了 。。。 呵 呵 。。 























但 赚钱 是 有 捷径 的 ， 有 人 介绍 说 可 以 到 茶社 灌水 ,发 一 贴 得 一 币 , 我 
个 人 是 不 赞成 这 种 做 法 的 。 原因 有 二 : 一 、 赚 钱 慢 。 一 天 最 多 发 三 贴 ， 也 就 是 说 
你 再 是 灌水 王 也 就 只 能 赚 三 币 ; 二 是 大 家 都 这 样 做 , 只 会 让 我 们 的 论坛 水 分 更 多 ， 
大 大 降低 论坛 的 品质 。 万 一 灌 得 不 好 还 会 被 扣 分 ， 那 就 更 得 不 偿 失 了 。 



































我 把 论坛 赚钱 法 分 为 三 种 : 


一 是 技术 活 。 就 像 群 贡 会 的 大 侠 一 样 卖 软件 ， 这 是 最 赚钱 的 活 ， 你 看 
哪 位 大 侠 不 是 腰 缠 万 贯 。 但 这 硕 饭 不 好 吃 ， 你 必须 得 会 编程 ， 得 吃透 DX 与 CX 
才 行 ， 不 是 每 个 人 都 能 干 的 ， 我 也 想 干 ， 但 干 不 了 。。 








二 是 苦力 活 。 就 像 我们 的 找 书 专家 ， 虽 然 赚钱 颇 丰 ， 但 都 是 茸 兰 钱 ， 
每 天 下 书 传 书 ， 宽 带 从 来 没 闲 过 





三 是 休闲 活 。 那 就 是 发 贴 。 每 天 到 处 看 看 ， 发 点 贴 子 ， 谈 谈 感 想 ， 虽 
然 钱 少 点 ， 但 人 轻松 啊 ， 也 没 压力 ， 看 到 好 玩 好 笑 的 还 不 赚 得 一 乐 。， 











这 三 种 途径 第 一 种 除非 你 有 真 本 事 , 否则 也 干 不 了 , 这 里 暂时 不 去 说 








Et 


第 三 种 方法 人 人 都 会 ， 说 也 无 益 。 




















只 说 第 二 种 。 其 实 找 书 并 不 是 像 我 们 所 想像 的 那么 难 。 当 然 有 一 些 生 
个 的 书 不 好 找 。 但 有 很 多 书 只 要 掌握 了 一 定 的 方法 还 是 可 以 找到 的 。 前提 是 你 必 
须 能 吃苦 。 





























找 书 区 有 很 多 是 DX 的 书 , 这样 的 书 一 般 也 只 有 高 手 才能 下 得 到 , 我 
们 可 以 不 去 管 它 。 但 还 是 有 一 部 分 书 是 从 SS**B 可 以 下 下 来 的 ， 这 个 就 简单 多 
下 

















SS**B 也 不 是 每 个 人 都 能 下 ， 它 是 有 了 IP 限制 的 ， 你 只 有 在 一 定 的 中 
范围 内 才 可 以 登录 阅读 与 下 载 (当然 还 有 其 他 方法 ， 这 里 上 略 过 )，IP 范围 一 般 是 
大 学 校区 内 。 如 果 你 是 大 学 校区 的 TP 自然 更 好 ， 如 果 不 是 ， 这 就 得 需要 代理 了 。 
也 就 是 说 你 用 了 某 大 学 的 TP 代理 之 后 ， 你 的 TP 地 址 就 会 相应 变 成 其 TP 地 址 ， 
也 就 可 以 登录 SS**B 了 。 代 理 的 来 源 很 多 ， 可 以 到 国内 文献 资源 版 块 里 去 找 ， 
不 过 一 般 都 有 威望 限制 ， 且 能 用 的 不 多 ; 也 可 以 去 一 些 代理 网 站 上 找 ， 也 可 以 自 
己 搜 。 





















































方法 见 : 

1. 代 理 服 务 器 知识 普及 全 教程 
http://www.readfree.net/bbs/htm_data/28/0504/62665.html 

这 是 代理 知识 贴 子 的 合集 








2. 代 理 猫 手 教程 (有 图 版 ) 
http://www.readfree.net/bbs/read-htm-tid-104760.html 








怎么 样 ， 不 是 你 想像 的 那么 难 吧 。 有 了 代理 之 后 就 好 办 了 ， 当 浏览 器 
挂 上 代理 后 就 可 以 登录 www.SSLIBRARYcom， 进 入 中 文 数 字 图 书 界 面 ， 把 书 名 
复制 上 去 ， 检 索 一 下 ， 是 不 是 看 到 你 想 要 找 的 书 了 呢 。 



































呵呵 ， 不 要 以 为 这 样 就 可 以 了 ， 当 你 下 载 下 来 一 看 就 知道 不 对 劲 了 ， 
天 啊 ， 怎 么 是 快速 版 ? 求 书 区 一 般 求 的 都 是 清晰 版 啊 ， 而 且 下 载 下 的 书 大 多 是 
66H 格式 ， 这 样 的 书 在 求 书 区 是 很 难 满 足 要 求 的 。 





























当然 这 些 都 是 有 方法 解决 的 , 不 过 这 都 得 谢谢 我 们 的 大 侠 们 ， 是 他 们 
开发 了 这 么 多 的 好 软件 。 








下 载 软件 与 方法 有 很 多 , 但 作为 一 个 新 手 , 没 钱 自然 用 不 起 那些 高 端 
的 武器 ， 那 就 用 免费 的 好 了 。 





is! 





下 载 软件 大 致 可 以 分 为 截流 与 下 载 两 种 , 截流 一 般 容易 出 现 坏 页 与 黑 
线 ， 所 以 尽量 还 是 选择 下 载 软件 。 




















这 里 重点 推荐 的 免费 软件 还 是 最 古老 也 是 最 有 生命 力 号 称 不 死神 话 
的 的 BE， 论 坛 里 有 免费 下 载 的 ， 用 心 找 找 就 行 ， 可 以 利用 论坛 里 最 强大 的 搜索 
功能 。 














用 BE 之 前 还 要 介绍 一 款 免费 软件 ， 那 就 是 HTTPLOOK， 这 是 一 于 
自动 获取 报头 的 工具 ， 安 装 好 两 款 软件 之 后 ， 打 开 HTTPLOOK， 点 上 绿色 的 小 
箭头 ， 再 打开 你 要 找 的 书籍 ，HTITPLOOK 里 是 不 是 有 东西 被 截获 出 来 了 ， 这 就 
是 你 所 需要 的 报头 ， 再 打开 BE， 在 程序 选项 /高 级 设置 里 有 个 用 户 自 定义 报头 ， 
把 HTTPLOOK 里 截获 的 东西 复制 上 去 ， 确认。 再 新 建 一 个 任务 ， 填 上 书 名 ,把 
报头 里 的 文件 路 径 复 制 上 去 , 一 般 包 括 HTTP: /WWW.***.com/ 后 面 加 上 第 一 行 
的 一 大 串 数字 符号 / 






























































这 样 就 可 以 了 ， 确 认 就 行 。 

















怎么 样 ? 是 不 是 上 面 的 五 个 可 爱 的 小 圆圈 在 骨 碌 碌 转动 了 呢 。 如 果真 
的 在 转动 了 ， 那 么 恭喜 你 ， 你 已 经 学 会 最 基本 的 赚钱 方法 了 。 这 样 下载 下 来 的 书 
一 般 都 是 清晰 版 本 ， 而 且 通 用 格式 ， 可 以 对 付 一 般 的 应 助 了 ， 当 然 你 也 可 以 用 的 
论坛 里 其 他 转换 软件 再 转换 一 下 。。。 

















现在 你 可 以 直接 奔 专 家 找 书 区 了 ， 看 到 求助 书籍 后 ， 先 在 SS**B 里 
搜索 ， 如 果 有 的 话 确认 可 以 打开 后 ， 还 犹豫 什么 ， 先 把 求助 者 的 榜 单 撕 下 来 吧 。 
动作 要 快 哦 ， 我 们 的 找 书 专家 个 个 都 手脚 麻利 得 很 。 
































还 有 一 个 最 大 的 好 处 就 是 你 自己 需要 的 书 只 要 SS**B 里 有 ， 就 再 也 
不 用 花 钱 买 了 。。。 呵 呵 。。。 














这 样 一 天 下 来 ， 是 不 是 可 以 赚 几 十 个 财富 呢 ， 如 果 书 卖 得 好 ， 上 百 个 
也 有 可 能 ， 当 然 你 得 勤奋 一 点 。。。 




















除 此 之 外 ， 你 还 可 以 到 处 逛 选 ， 有 没有 谁 家 办 喜事 的 ， 比 如 荣 升 啊 ， 
新 品 发 布 会 啊 ， 选 秀 活动 啊 ， 进 去 说 几 句 好听 点 的 话 都 有 赏 钱 哦 。。。 














干 一 段 时 间 ， 束 可 以 攒 钱 买 大 侠 们 的 利器 ,也 可 以 去 求助 你 所 心仪 的 
书籍 了 。。。 











平时 也 要 注意 翻 翻 旧 贴 子 , 那里 面 可 都 是 宝藏 ， 论 坛 几 年 来 高 手 的 心 
得 都 在 里 面 。。。 











当然 , 你 也 要 注意 与 园子 里 的 朋友 搞 好 关系 ,这样 在 园子 里 你 才 会 玩 
得 开心 ， 慢 慢 地 你 会 发 现 ， 这 个 园子 真 的 是 很 可 爱 滴 。。。。 

















最 后 ， 愿 大 家 在 园子 里 学 得 有 趣 ， 玩 得 开心 。。。 





scdymy 搜 集 的 新 手 入 门 帖 子 


http://www.readfree.net/bbs/read.php?tid=4475650&keyword= 


菜鸟 第 一 次 ， 激 动 中 
我 这 个 菜 菜 终 于 会 下 简单 的 书 了 ， 很 激动 ， 特 意 发 帖 





作者 : lucy12345678 




















下 载 超星 书 所 需要 的 最 基本 内 容 举 例如 下 : 





httD://xxx.XXX.XXX.XXX/XX/diskxxx/xxxx/xx/!100001.pdg 


其 中 

http://xxXx.XXX.XXX.XXX/ 为 ip 网 址 

xx/ 前 辈 高 手 称 之 为 path 
/diskxxx/xxxx/xx/!00001.pdg 前 辈 高 手 称 之 为 disk 





























只 要 充分 理解 这 一 结构 之 内 涵 , 按 以 下 基本 方法 即 可 在 各 大 超星 镜像 中 下 
载 到 大 部 分 需求 的 书 . 











1。 书 名 /作者 直接 检索 法 
2。SS 查询 法 
3。 移 花 接木 法 








推荐 阅读 贴 
http://www.readfree.net/bbs/read.php7tud-51131-keyword-.html 


作者 : rc58 

下 载 某 些 超星 书 的 正确 方法 

看 到 论坛 里 介绍 , 某 些 超星 镜像 站 点 的 图 书 可 看 但 不 能 下 载 ， 或 下 载 时 出 现 
SS 号 不 存在 等 字样 时 , 可 以 用 http:// 代 替 book:/ 的 方 法 来 下載 。 我 也 曾经 这 么 下 
载 过 ， 但 有 1000 页 的 限制 ， 并 且 书 名 也 变 成 了 “未 命名 图 书 ”。 


















































其 实 ， 对 这 类 站 点 的 图 书 ， 有 正确 的 方法 可 以 避免 上 述 的 次 端 。 分 享 如 下 : 














1. 右键 点 击 要 阅读 或 下 载 的 图 书 ， 在 弹出 的 右键 沫 单 里 选 “ 在 新 窗口 里 打 





开 ”; 
2. 在 新 打开 的 窗口 里 ， 选 菜单 “查看 ”， 选 “查看 源 文件 ”; 
3. 在 弹出 的 文本 窗口 里 ， 你 会 看 到 如 下 例 里 给 出 的 代码 内 容 : 








Copy code 

<script language=javascript> 

var newwind; 

newwind = 
window.open('book://ssreader/e0?url=http://202.196.100.11/01/diskhb/hb49/04/!0000 
1.pdg&&&&&pages=215$&bookname= 发 达 国 家 警察 管理 制度 &ssnum=11092393，， 
"blank', 
fullscreen=0,location=0,directories=0,status=0.menubar=0,scrollbars=0,resizable=1): 

setlimeout(reback,1000): 

function reback() 


( 





newwind.close(): 
history.back(): 
} 
</script> 
4. 用 “&candownload=1&downloadreg=0&canprint=1” 代 符 上 面 代码 里 的 三 
个 “&&&“; 
5. 然后， 选取 从 book 开始 到 书 名 的 那 段 代码 ， 即 在 本 例 中 选取 下 面 代 码 ， 
拷贝 并 粘贴 到 网 页 浏览 器 或 超星 自 带 的 浏览 器 的 地 址 栏 上 ， 回 车 。 
Copy code 
“ book://ssreader/e0?url=http://202.196.100.11/01/diskhb/hb49/04/!00001.pdg& 
&candownload=1&downloadreg=0&canprint=1&pages=215&&bookname= 发 达 国 家 
警察 管理 制度 ” 
6. 完成 以 上 步骤 ， 束 可 以 下 载 带 有 完整 书 名 并 且 页 数 正确 的 图 书 了 。 









































Re: 超 星 图 书 下 载 的 基本 技能 





Quote: 

下 面 是 引用 bookish 于 2005-02-12 08:50 发 表 的 超星 图 书 下 载 的 基本 技能 : 

book://ssreader/e0?url=http://202.196.100.11/01/diskhb/hb49/04/!00001.pdg&& 
candownload=1&downloadreg=0 必 canprint=1&&pages=215 必 bookname= 友 状 国家 警 
察 管理 制度 









































这 是 用 超星 浏览 器 阅读 的 基本 命令 ， 其 中 ，202.196.100.11， 我 把 它 叫 做 ip; 
01 称 为 path， 这 个 数据 各 个 镜像 是 不 一 样 的 ， 了 解 一 个 镜像 ， 首 先 就 要 了 解 该 
镜像 path 的 規律 , diskhb/hb49/04 称 之 为 disk, 每 本 超星 图 书 有 一 个 确定 的 disk, 
同一 本 书 的 disk， 所 有 镜像 都 一 样 。 
后 面 还 可 以 加 上 : &author= 作 者 ssnumber=SS 号 &publicdate= 出 版 日 期 
页 数 如 果 不 详 ， 可 以 写成 5000。 









































谢谢 bookish 老师 的 补充 。 








在 前 述 的 方法 里 ， 关 键 是 去 掉 了 &ssnumber=SS 号 ， 这 样 就 避免 了 后 台 程 序 
去 查找 SS 号 而 导致 出 现 “SS 号 不 存在 ”的 问题 。 


在 例子 里 的 参数 中 ，&candownload=1 表示 可 以 下 载 ，&canprint=1 表示 可以 
打印 ，&downloadreg=0 表示 下 载 时 不 需要 注册 。 











还 见 过 一 个 参数 好 像 是 & REGrequire=0, 从 字面 上 看 那 似 乎 应 该 是 不 需要 注 
册 束 可 以 阅读 全 书 ? 





作者 : dchong 

1、 过 好 搜索 关 ， 多 搜索 旧 贴 子 

首先 第 一 步 是 利用 好 搜索 工具 ， 百 度 与 google 当然 是 首选 。 要 利用 好 工具 
首先 是 要 掌 技巧 ， 利 用 这 两 个 工具 搜索 “百度 搜索 技巧 ”“google 搜索 技巧 ” 网 
上 这 类 贴 子 很 多 ， 学 习 一 下 ， 你 想像 不 到 的 技巧 一 下 子 就 掌握 不 少 ， 假 以 时 日 就 
是 检索 高 手 。 

过 了 工具 关 ， 下面 就 是 利用 工具 为 你 服务 了 。 要 找 有 效 的 资源 ， 当 然 越 新 越 
好 ， 可 旧 资 源 是 你 成 长 的 阶梯 ， 对 旧 资 源 花 点 心思 是 值得 的 ， 虽然 大 部 份 旧 资源 
暂时 用 不 了 ， 但 随 着 你 技术 的 不 但 进步 ， 你 会 发 现 原来 这 些 旧 资源 还 是 有 效 的 ， 
只 是 在 原 有 基础 上 加 点 变通 而 已 。 如 果 你 是 幸运 的 ， 在 旧 资 源 中 你 会 发 现 ， 这 些 
所 谓 的 过 了 期 或 无 效 的 旧 资 源 对 你 却 是 有 效 的 。 比 如 一 些 入 口 或 一 些 代理 。 

2、 勤 于 思考 ， 掌 握 要 点 。 

很 多 公布 的 资源 是 表面 的 ,在 公布 的 表象 之 下 ， 如 果 你 勤 于 思考 ， 你 就 会 长 
效 利用 资源 。 比 如 给 你 一 个 入 口 ， 有 效 期 内 你 可 以 疯狂 下 载 , 但 一 旦 失效 ， 你 就 




















































































































手足 无 措 。 如 果 你 对 旧 贴 子 有 一 定 的 了 解 ,你 就 会 对 失效 入 口 如 何 长 效 利 用 感 兴 
趣 。 比 如 中 山 图 书馆 是 我 初次 接触 超星 时 碰 到 的 藏书 最 丰富 的 入 口 , 曾 几 经 反复 ， 
时 活 时 死 ， 因 为 我 在 中 山 图 书馆 第 一 次 失效 后 思考 过 长 效 利用 的 问题 , 在 失效 期 
同 , 我 不 断 翻 旧 贴 子 进行 比较 思索 ， 到 现在 我 很 少 用 代理 进 这 个 图 书馆 , 但 其 有 
的 书 不 用 入 口 也 照样 下 载 。 我 帮 人 下 了 几 百 本 05H 格式 的 书 之 后 ， 一 直 有 个 愿 
望 束 是 能 从 主 站 下 载 清晰 版 书籍 。 求助 几 次 碰壁 之 后 ,后 经 人 指点 得 到 启示 ， 可 
以 设置 多 种 报 文 ， 下 书 也 从 单一 的 BE 中 解脱 出 来 ， 根 源 就 在 于 对 权限 的 理解 与 
思考 。 

3、 注 重 资 源 积累 。 

资源 的 积累 是 要 时 间 的 , 更 重要 的 是 在 做 好 前 面 两 项 工作 的 基础 上 积累 有 效 
的 资源 。 就 超星 镜像 入 口 而 言 有 需要 代理 阅读 下 载 的 , 也 有 不 需要 代理 阅读 下 载 
的 。 对 不 同类 型 的 入 口 要 采用 不 同 的 方法 进行 处 理 。 如 果 遇 到 不 需要 代理 即 可 阅 
读 或 下 载 的 入 口 ， 那 就 恭喜 你 ， 只 要 这 个 超星 不 改 认 证 机 制 ， 你 就 可 以 长 效 利 用 
了 , 如 中 山 图 书馆 等 .如果 碰 到 需要 用 代理 阅读 或 下 载 的 , 过 好 代理 关 是 必须 的 。 
过 代理 关 不 是 你 针对 某 个 大 学 进行 搜索 ， 而 是 你 积累 了 多 少 大 学 的 代理 资源 。 代 
理 是 有 时 效 的 ， 时 开 时 关 ， 但 有 一 些 代 理 可 以 成 活 很 长 的 时 间 ， 如 果 你 对 代理 资 
源 有 足够 的 贮备 的 话 ， 进 镜像 超星 就 易于 反 掌 。 我 现在 收集 的 大 学 超星 代理 已 达 
到 3000 多 个 , 每 天 可 供 我 用 的 有 效 代 理 入 口 至 少 在 50 个 以 上 , 这 一 切 都 在 于 平 
时 对 资源 的 积累 。 

至 于 一 些 更 深层 次 的 问题 我 相应 新 人 也 会 有 了 解 的 一 天 , 如 果 你 做 到 了 以 上 
三 点 ， 我 相信 你 就 有 用 不 尽 的 资源 。 





























































































































































































































作者 : lucy12345678 

超星 下 载 之 路 如 何 走 ? 一 步 一 脚印 ， 鼠 急功近利 
本 帖 被 acdacd 执行 提前 操作 (2007-05-12) 
超星 下 载 之 路 如 何 走 ? 一 步 一 脚印 ， 鼠 急功近利 

















初 识 园地 : 网 络 搜索 超星 破解 版 软件 时 

注册 园地 : 为 求 一 本 英语 学 习 辅 导 书 时 

入 园 初始 : 上 天 无 路 入 地 无 门 。 求 书 不 能 ， 短 信 无 应 。 

应 对 之 策 : 自救 

自救 之 基础 ， 非 计算 机 专业 但 能 熟练 使 用 计算 机 

推理 : 思 来 想 去 获取 电子 图 书 应 该 如 同 借阅 纸 质 书 ， 必 须 进 图 书馆 ， 查 询 ， 
确定 书架 编号 ， 办 理 手续 取 书 

具体 行动 : 

1。 寻 找 超星 图 书馆 : 网 络 资讯 人 人 可 查 。 利 用 google, 百度 捜索 引 筆 捜索 
星 电子 图 书馆 网 址 。 

在 找寻 超星 电子 图 书馆 网 址 的 过 程 中 了 解 到 了 ssreader.com, sslibrary.com, 
duxiu.com, firstdrs.com 以 及 各 大 高 等 院 校 的 电子 图 书馆 都 有 超星 图 书 。 其 中 各 
高 等 院 校 的 电子 图 书馆 中 的 超星 书 量 各 校 不 等 , 但 馆 数 众多 因此 相对 比较 容易 
找到 能 下 载 的 突破 口 。 
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2。 攻 克 高 校 镜像 : 高 校 入 口 众 多 ， 登 陆 条 件 不 一 。 有 些 能 毫 无 阻拦 登陆 ， 














有 些 有 ip 限制 。 能 登陆 者 为 首选 。 

在 能 自由 登陆 的 高 校 入 口中 发 现 几 种 情况 : 检索 结果 能 阅读 下 载 , 能 阅读 但 
不 能 下 载 ， 或 两 者 都 不 能 。 如 何 解决 下 载 的 问题 呢 ? 旧 贴 中 有 许多 方法 ， 但 我 选 
择 了 添 加 指令 法 ， 即 在 连 接地 址 中 添 加 
&candownload=1&downloadreg=0&canprint=1&。 人 至 此 基本 了 解 了 超星 书 的 下 载 
过 程 及 其 所 需 参 数 。 这 是 我 的 第 一 步 脚 印 。 




































































3。 如 何 开发 利用 有 jp 限制 的 高 校 入 口 ? 旧 贴 中 有 不 同 的 方法 ， 我 选择 了 试 
探 性 的 ss 号 查询 法 和 移花接木 法 。 学 会 这 两 招 完全 是 基于 在 学 走 第 一 步 的 过 程 
中 对 快 击 键 的 观察 以 及 旧 贴 中 bookish 大 侠 对 超星 书 地 址 的 解读 。 这 是 我 的 第 二 
步 脚 印 。ss 号 和 移花接木 法 的 disk 哪儿 来 ? 读 秀 网 站 查询 即 可 。 

三 个 月 中 不 断 来 回 走 这 两 步 。 不 断 的 来 回 ， 不 断 的 阅 贴 ， 不 断 地 思索 ， 不 断 
地 加 深 领 会 dchong 写 的 “与 新 手 分 享 ” 贴 。 在 这 过 程 中 也 学 会 了 翻 页 工具 及 嗅 
探 工具 以 及 be 和 flashget 对 高 校 镜像 的 下 载 方 法 。 自 我 评判 已 达到 了 zhuce2003 
大 侠 眼 中 的 3 级 (有 ip 限制 的 普通 大 镜像 一 一 高 级 新 手 ) 或 者 slonecn 大 侠 眼 中 
的 4 段 (会 使用 BE、flashget 等 第 三 方 工具 下 载 镜 像 图 书 )， 至 此 已 经 满足 了 我 
的 工作 学 习 和 休闲 阅读 的 一 般 所 需 。 



















































































4。 攻 克 sslibrary 入 口 : 在 找寻 高 校 镜像 入 口 的 过 程 中 ， 时 不 时 地 看 到 超星 
全 库 的 试用 通知 ， 个 别 高 校 甚至 有 密码 公布 。 于 是 利用 google， 百 度 搜 索引 擎 搜 
索 这 些 密码 并 试探 性 登陆 ， 有 些 竞 登陆 成 功 。 至 此 可 阅读 的 范围 更 进 了 一 步 。 如 
何 得 到 这 些 书 呢 ?” 旧 贴 中 的 首选 答案 有 两 个 : 嗅 探 截流 和 be 下 载 。 下 载 成 功 关 
键 是 有 效 报 文 (http header) ,获取 有 效 报头 又 以 咒 探 截流 为 基础 。 对 于 超星 
效 报头 的 公开 讨论 园地 是 忌讳 的 ， 但 是 蛛丝马迹 仍然 可 以 在 旧 贴 中 看 到 。 如 : 1) 
凡是 能 发 送 和 接受 报 文 的 软件 均 可 下 载 ; 2) 报 文 是 由 两 大 部 分 组 成 '， 3) 报 文 的 
关键 指令 是 哪个 ，4) 一 个 很 简单 的 思路 : 如 果 例 子 可 以 阅读 ， 那 么 首先 把 报 文 
弄 成 和 例子 一 模 一 样 ;，5) 得 到 了 最 初 的 一 两 页 就 是 成 功 的 第 一 步 ， 对 报 文 进行 
加 加 减 减 的 美容 术 或 者 照 单 全 收 。 等 等 。。。 不 断 的 探索 如 何 获取 报 文 ,不 断 地 比 
较 分 析 ， 尝 试 找 出 报 文中 的 共同 点 和 不 同 点 。 按 照 BE 的 使 用 方法 ， 在 自 定义 报 
文 处 填 入 不 同 的 报 文成 份 进行 试探 性 下 载 , 终于 功夫 不 负 有 心 人 , 一 天 晚上 终于 
得 到 了 两 页 目录 页 ， 经 过 努力 终于 下 载 了 第 一 本 完整 的 书 。 现 在 大 致 了 解 了 BE 
下 载 的 过 程 ， 对 那些 蛛丝马迹 有 了 进一步 的 理解 。 报 文 不 可 不 完整 ， 但 必要 时 须 
舍得 断 其 左 膀 右 臂 ， 甚 至 拦腰 截断 。 这 是 我 的 第 三 步 脚 印 。 自 我 评判 已 达到 了 
slonecn 大 依 眼 中 的 $ 段 (使用 BE、flashset 等 第 三方 工具 下載 sslib )。 


























































































































5。 下 一 步 打算 : 学 习 代 理 知 识 











6。 绪论 : 多 翻阅 非 加 密 旧 贴 也 可 找到 发 光 的 金子 。 一 步 一 脚印 步 向 光明 项。 











这 是 我 入 园 三 个 月 来 的 学 习 小 结 。 











最 后 感谢 园地 的 各 位 网 友 , 是 你 们 的 奉献 才 使 我 学 到 了 这 么 多 有 用 的 网 络 知 
识 


N° 


既然 这 本 书 不 行 ,换个 镜 象 试 试 . 
我 已 经 试 成 功 了 .用 BE 下 载 图 书 . 
报头 填 : 

SSAuth: ボボ ポポ ポポ 

SSRANDOM: * ま ***※* 

ServerID: * ま まま ※ ポ 


Cache-Control: no-cache 


任务 位 置 : 
http://ip 网 址 /path/disk/ 





